数据分析与挖掘基本工具
提莫君
这个作者很懒,什么都没留下…
展开
-
学习笔记之《python数据分析与挖掘实战》第二章python数据分析简介
文章目录python数据分析简介搭建python开发平台python入门使用数据结构函数式编程(重点)python数据分析工具NumpyScipyMatplotlibPandasStatsModelsScikit-LearnKerasGensimpython数据分析简介搭建python开发平台python入门使用数据结构列表(list)元组(tuple)字典(dict)集合(se...原创 2019-03-30 11:57:17 · 843 阅读 · 0 评论 -
学习笔记之《python数据分析与挖掘实战》第一章数据挖掘基础
文章目录欢迎购买正版书籍第一章数据挖掘基础1.数据挖掘的基本任务2.数据挖掘建模过程定义挖掘目标数据抽样数据探索数据预处理挖掘建模模型评价3. 常见的数据挖掘建模工具欢迎购买正版书籍豆瓣评价:Python数据分析与挖掘实战作者: 张良均 / 王路 / 谭立云 / 苏剑林出版社: 机械工业出版社参考源码:《python数据分析与挖掘实战》的代码笔记第一章数据挖掘基础1.数据挖掘的基本...原创 2019-03-30 11:15:50 · 849 阅读 · 0 评论 -
学习笔记之《python数据分析与挖掘实战》前言
文章目录前言基础篇第1章 数据挖掘基础2第2章 Python数据分析简介10第3章 数据探索33第4章 数据预处理60第5章 挖掘建模83实战篇第6章 电力窃漏电用户自动识别144第7章 航空公司客户价值分析164第8章 中医证型关联规则挖掘180第9章 基于水色图像的水质评价195第10章 家用电器用户行为分析与事件识别204第11章 应用系统负载分析与磁盘容量预测223第12章 电子商务网站用...原创 2019-03-30 10:40:51 · 895 阅读 · 0 评论 -
数据分析之MySQL(七)Python 中操作 MySQL 步骤(重点)
数据准备:数据将使用上节中的jing_dong数据库文件,具体操作见:https://blog.csdn.net/qq_42642945/article/details/88752110Python 中操作 MySQL 步骤(重点)0.安装pymysql 模块1.引入模块在py文件中引入pymysql模块from pymysql import *2.创建Connection 对象...原创 2019-03-22 22:39:19 · 494 阅读 · 0 评论 -
数据分析之MySQL(六)MySQL操作练习
准备数据创建数据表创建 “京东” 数据库create database jing_dong charset=utf8;使用 “京东” 数据库use jing_dong;创建一个商品goods数据表create table goods( id int unsigned primary key auto_increment not null, name varchar...原创 2019-03-22 22:08:33 · 410 阅读 · 0 评论 -
数据分析之MySQL(一)数据库及MySQL介绍
数据库简介数据库就是数据的仓库,它是一种特殊的文件,其中存储着需要的数据数据存储以前是这样记录的:结绳记事也有这样记录的:甲骨后来开始这样记录:图书传统记录数据的缺点:不易保存备份困难查找不便现代化手段----文件使用简单,例如python中的open可以打开文件,用read/write对文件进行读写,close关闭文件对于数据容量较大的数据,不能够很好的满...原创 2019-03-21 17:55:43 · 2210 阅读 · 0 评论 -
数据分析之MySQL(五)MySQL查询操作(重点)
MySQL查询操作MySQL查询操作命令行代码select查询所有字段、指定字段的数据select * from students;select name,age from students;消除重复行命令distinctselect distinct gender from students;as给字段、表起别名select s.name as '姓名',...原创 2019-03-22 18:38:24 · 823 阅读 · 0 评论 -
数据分析之MySQL(四)命令行操作MySQL(重点)
命令行操作MySQL(重点)数据库操作命令行代码连接数据库mysql -u root -pmysql – 不显示密码连接python@ubuntu:~/Desktop$ mysql -u root -pEnter password:退出数据库exit显示mysql数据库软件版本Version 版本select version();version()...原创 2019-03-22 11:49:25 · 318 阅读 · 0 评论 -
数据分析之MySQL(三)数据类型与约束
数据类型与约束在创建数据表时,需对表中的字段设置数据类型和约束,便于检测用户输入的数据是否正确有效。约束主键primary key:物理上存储的顺序非空not null:此字段不允许填写空值惟一unique:此字段的值不允许重复默认default:当不填写此值时会使用默认值,如果填写时以填写为准外键foreign key:对关系字段进行约束,当为关系字段填写值时,会到关联的表中查询...原创 2019-03-21 19:16:57 · 428 阅读 · 0 评论 -
数据分析之Pandas(十一)综合案例
综合案例需求现在我们有一组从2006年到2016年1000部最流行的电影数据,数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data问题1:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?问题2:对于这一组电影数据,如果我们想rating,runtime的分布情况,应该如何呈现数据?问题3:对于这一组电影...原创 2019-03-18 14:48:57 · 4698 阅读 · 1 评论 -
数据分析之Pandas(十)高级处理-分组与聚合
高级处理-分组与聚合分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况想一想其实刚才的交叉表与透视表也有分组的功能,所以算是分组的一种形式,只不过他们主要是计算次数或者计算比例!!看其中的效果:什么是分组与聚合数据分析中,常常需要把数据量相对较大的数据分成若干各组,然后分别对小的组中的数据做统计分析操作,比如说分析员工工资状况与员工的性别/入职年份/部分之...原创 2019-03-18 14:40:35 · 770 阅读 · 0 评论 -
学习笔记之《python数据分析与挖掘实战》第三章数据探索
文章目录欢迎购买正版书籍欢迎购买正版书籍豆瓣评价:Python数据分析与挖掘实战作者: 张良均 / 王路 / 谭立云 / 苏剑林出版社: 机械工业出版社参考源码:《python数据分析与挖掘实战》的代码笔记...原创 2019-03-30 15:07:00 · 1449 阅读 · 0 评论 -
python数据分析入门之高效的学习路径
文章目录广泛被应用的数据分析数据分析的流程数据获取:公开数据、Python爬虫数据存取:SQL语言数据预处理:Python(pandas)概率论及统计学知识Python 数据分析系统实战与数据思维广泛被应用的数据分析谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人量身...原创 2019-03-28 21:56:03 · 749 阅读 · 0 评论 -
学习笔记之《python数据分析与挖掘实战》第六章电力窃漏电用户自动识别
文章目录欢迎购买正版书籍欢迎购买正版书籍豆瓣评价:Python数据分析与挖掘实战作者: 张良均 / 王路 / 谭立云 / 苏剑林出版社: 机械工业出版社参考源码:《python数据分析与挖掘实战》的代码笔记...原创 2019-04-01 19:00:03 · 2247 阅读 · 0 评论 -
学习笔记之《python数据分析与挖掘实战》第五章挖掘建模(五)离群点检测
文章目录欢迎购买正版书籍挖掘建模欢迎购买正版书籍豆瓣评价:Python数据分析与挖掘实战作者: 张良均 / 王路 / 谭立云 / 苏剑林出版社: 机械工业出版社挖掘建模经过数据探索和数据预处理,得到了可以直接建模的数据。根据挖掘的目标和形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型,帮助企业提取数据中蕴含的商业价值,提高企业竞争力。...原创 2019-04-01 17:01:15 · 627 阅读 · 0 评论 -
学习笔记之《python数据分析与挖掘实战》第五章挖掘建模(四)时序模式
文章目录欢迎购买正版书籍挖掘建模欢迎购买正版书籍豆瓣评价:Python数据分析与挖掘实战作者: 张良均 / 王路 / 谭立云 / 苏剑林出版社: 机械工业出版社挖掘建模经过数据探索和数据预处理,得到了可以直接建模的数据。根据挖掘的目标和形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型,帮助企业提取数据中蕴含的商业价值,提高企业竞争力。...原创 2019-04-01 16:58:36 · 399 阅读 · 0 评论 -
学习笔记之《python数据分析与挖掘实战》第五章挖掘建模(三)关联规则
文章目录欢迎购买正版书籍挖掘建模欢迎购买正版书籍豆瓣评价:Python数据分析与挖掘实战作者: 张良均 / 王路 / 谭立云 / 苏剑林出版社: 机械工业出版社挖掘建模经过数据探索和数据预处理,得到了可以直接建模的数据。根据挖掘的目标和形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型,帮助企业提取数据中蕴含的商业价值,提高企业竞争力。...原创 2019-04-01 16:54:59 · 440 阅读 · 0 评论 -
学习笔记之《python数据分析与挖掘实战》第五章挖掘建模(二)聚类分析
文章目录欢迎购买正版书籍挖掘建模欢迎购买正版书籍豆瓣评价:Python数据分析与挖掘实战作者: 张良均 / 王路 / 谭立云 / 苏剑林出版社: 机械工业出版社挖掘建模经过数据探索和数据预处理,得到了可以直接建模的数据。根据挖掘的目标和形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型,帮助企业提取数据中蕴含的商业价值,提高企业竞争力。...原创 2019-04-01 16:13:47 · 777 阅读 · 0 评论 -
学习笔记之《python数据分析与挖掘实战》第五章挖掘建模(一)分类与预测
文章目录欢迎购买正版书籍欢迎购买正版书籍豆瓣评价:Python数据分析与挖掘实战作者: 张良均 / 王路 / 谭立云 / 苏剑林出版社: 机械工业出版社参考源码:《python数据分析与挖掘实战》的代码笔记...原创 2019-04-01 16:12:19 · 799 阅读 · 0 评论 -
3个步骤+3个模型,极简数据分析法
原文地址:https://baike.baidu.com/tashuo/browse/content?id=aaf4a9d8b647017f83861531&lemmaId=6577123&fromLemmaModule=pcBottomPython、BI…都是技术流,会的话最好,不会也完全没关系。因为数据分析不是技术,而是一种思维习惯。而建立这种思维习惯,你只需要3个步骤+3...转载 2019-04-06 14:37:53 · 1241 阅读 · 0 评论 -
数据分析之MySQL(十)数据库设计
数据库设计关系型数据库建立在E-R模型的基础上,我们需要根据产品经理的设计策划,抽取出来模型与关系,制定出表结构,这是项目开始的第一步在开发中有很多设计数据库的软件,常用的如power designer,db desinger等,这些软件可以直观的看到实体及实体间的关系设计数据库,可能是由专门的数据库设计人员完成,也可能是由开发组成员完成,一般是项目经理带领组员来完成现阶段不需要独立完成...原创 2019-03-24 17:33:21 · 460 阅读 · 0 评论 -
数据分析之MySQL(九)索引
1. 思考在图书馆中是如何找到一本书的?在字典中查找一个单词?一般的应用系统对比数据库的读写比例在10:1左右(即有10次查询操作时有1次写的操作),而且插入操作和更新操作很少出现性能问题,遇到最多、最容易出问题还是一些复杂的查询操作,所以查询语句的优化显然是重中之重2. 解决办法当数据库中数据量很大时,查找数据会变得很慢优化方案:建立索引3. 索引是什么索引是一种特殊的文件(I...原创 2019-03-24 17:07:57 · 185 阅读 · 0 评论 -
数据分析之MySQL(八)视图与事务
视图view视图是什么通俗的讲,视图就是一条SELECT语句执行后返回的结果集。所以我们在创建视图的时候,主要的工作就落在创建这条SQL查询语句上。视图是对若干张基本表的引用,一张虚表,查询语句执行的结果,不存储具体的数据(基本表数据发生了改变,视图也会跟着改变);视图的作用重用sql语句,简化用户操作更清晰表达数据当数据库重构时,降低对用户(程序)的影响视图能够对机密数据提供安...原创 2019-03-24 16:42:19 · 375 阅读 · 0 评论 -
数据分析之Pandas(九)高级处理-交叉表与透视表
交叉表与透视表交叉表与透视表什么作用探究股票的涨跌与星期几有关?以下图当中表示,week代表星期几,1,0代表这一天股票的涨跌幅是好还是坏,里面的数据代表比例可以理解为所有时间为星期一等等的数据当中涨跌幅好坏的比例使用crosstab(交叉表)实现上图交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数(寻找两个列之间的关系)pd.crosstab(value1, val...原创 2019-03-18 14:26:21 · 1630 阅读 · 0 评论 -
数据分析之Pandas(八)高级处理-数据离散化与数据合并
如果你的数据由多张表组成,那么有时候需要将不同的内容合并在一起分析pd.concat实现数据合并pd.concat([data1, data2], axis=1)按照行或列进行合并,axis=0为列索引,axis=1为行索引按照行索引进行pd.merge实现合并可以基于一个列做合并,也可以基于多个列来合并,基于多个列合并时,相当于把作为key的多个列看成是一个大的列pd....原创 2019-03-18 14:10:38 · 860 阅读 · 0 评论 -
数据分析之Matplotlib(四)柱状图(bar)
柱状图绘制需求1-对比每部电影的票房收入电影数据如下图所示:1 准备数据['雷神3:诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴', '降魔传','追捕','七十七天','密战','狂兽','其它'][73853,57767,22354,15969,14839,8725,8716,8318,7916,6764,52222]2 绘制matplotli...原创 2019-03-08 10:36:37 · 3264 阅读 · 0 评论 -
数据分析之Matplotlib(三)散点图(scatter)
散点图绘制需求:探究房屋面积和房屋价格的关系房屋面积数据:x = [225.98, 247.07, 253.14, 457.85, 241.58, 301.01, 20.67, 288.64,163.56, 120.06, 207.83, 342.75, 147.9 , 53.06, 224.72, 29.51,21.61, 483.21, 245.25, 399.25, 343....原创 2019-03-08 10:24:16 · 1419 阅读 · 0 评论 -
数据分析之Pandas(二)Pandas数据结构
DataFrame结构DataFrame对象, 是一个二维的结构,既有行索引,又有列索引行索引,表明不同行,横向索引,叫index列索引,表名不同列,纵向索引,叫columnsDatatFrame的属性常用属性:shape 外形index 行标签columns 列标签values 底层的数据,是numpy的ndarrayT 转置例如:常用方法:head():默...原创 2019-03-11 17:12:22 · 511 阅读 · 0 评论 -
数据分析之Pandas(一)Pandas介绍
Pandas介绍2008年有做金融数据分析的人,需要方便的工具做数据处理,当时缺少这类工具,于是就自己写了一个Python Data Analysis Library 简称Pandas2008年WesMcKinney开发出的库专门用于数据挖掘的开源python库以Numpy为基础,借力Numpy模块在计算方面性能高的优势基于matplotlib,能够简便的画图独特的数据结构...原创 2019-03-11 16:48:52 · 1758 阅读 · 0 评论 -
数据分析之NumPy(七)IO操作与数据处理
问题大多数数据并不是我们自己构造的,而是存在文件当中,需要我们用工具获取。但是Numpy其实并不适合用来读取和处理数据,因此我们这里了解相关API,以及Numpy不方便的地方即可。Numpy读取genfromtxt(fname[, dtype, comments, …]) Load data from a text file, with missing values handled as...原创 2019-03-11 16:27:13 · 295 阅读 · 0 评论 -
数据分析之NumPy(六)数据合并、切分
合并、分割的用处实现数据的切分和合并,将数据进行切分合并处理合并apinumpy.concatenate((a1, a2, …), axis=0),可以在水平/垂直方向上合并numpy.hstack(tup) Stack arrays in sequence horizontally (column wise),水平合并numpy.vstack(tup) Stack arrays i...原创 2019-03-11 16:21:39 · 3079 阅读 · 0 评论 -
数据分析之NumPy(五)数组间运算
数组与数的运算arr = np.array([[1, 2, 3, 2, 1, 4], [5, 6, 1, 2, 3, 1]])arr + 1arr * 2arr / 2# 可以对比python列表的运算,看出区别a = [1, 2, 3, 4, 5]a * 3数组与数组的运算arr1 = np.array([[1, 2, 3, 2, 1, 4], [5, 6, 1, 2, 3...原创 2019-03-11 16:07:17 · 1654 阅读 · 0 评论 -
数据分析之NumPy(四)ndarray运算
ndarray运算逻辑运算# 重新生成8只股票10个交易日的涨跌幅数据stock_change = np.random.normal(0, 1, (8, 10))stock_changestock_change = stock_change[0:5, 0:5]stock_change# 逻辑判断, 如果涨跌幅大于0.5就标记为True 否则为Falsestock_chang...原创 2019-03-11 15:26:18 · 1483 阅读 · 0 评论 -
数据分析之Matplotlib(二)折线图(plot)
折线图绘制与保存图片为了更好地理解所有基础绘图功能,我们通过天气温度变化的绘图来融合所有的基础API使用1 matplotlib.pyplot模块matplotlib.pytplot包含了一系列类似于matlab的画图函数。 它的函数作用于当前图形(figure)的当前坐标系(axes)。import matplotlib.pyplot as plt2 折线图绘制与显示展现上海一周的...原创 2019-03-07 21:40:56 · 5597 阅读 · 2 评论 -
数据分析之Matplotlib(一)简介
Matplotlib简介Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形 。通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。是专门用于开发2D图表(包括3D图表)使用起来及其简单以渐进、交互式方式实现数据可视化Matplotlib可视化的作用可...原创 2019-03-07 20:03:42 · 3919 阅读 · 0 评论 -
数据分析与挖掘基础环境安装与使用
数据分析与挖掘基础环境安装与使用整个数据挖掘基础阶段会用到Matplotlib、Numpy、Pandas、Ta-Lib、jupyter等库,为了统一版本号在环境中使用,将所有的库及其版本放到了文件requirements.txt当中,然后统一安装新建一个用于数据挖掘环境的虚拟环境:virtualenv -p python3 ai #把虚拟环境安装到指定文件夹下启用虚拟环境:workon...原创 2019-03-07 18:28:00 · 397 阅读 · 0 评论 -
数据分析之Matplotlib(五)直方图(histogram)
直方图介绍直方图,形状类似柱状图却有着与柱状图完全不同的含义。直方图牵涉统计学的概念,首先要对数据进行分组,然后统计每个分组内数据元的数量。 在坐标系中,横轴标出每个组的端点,纵轴表示频数,每个矩形的高代表对应的频数,称这样的统计图为频数分布直方图。相关概念:组数:在统计数据时,我们把数据按照不同的范围分成几个组,分成的组的个数称为组数组距:每一组两个端点的差直方图与柱状图的对比...原创 2019-03-08 10:45:38 · 9249 阅读 · 2 评论 -
数据分析之Matplotlib(六)饼图(pie)
饼图介绍饼图广泛得应用在各个领域,用于表示不同分类的占比情况,通过弧度大小来对比各种分类。饼图通过将一个圆饼按照分类的占比划分成多个区块,整个圆饼代表数据的总量,每个区块(圆弧)表示该分类占总体的比例大小,所有区块(圆弧)的加和等于 100%。饼图绘制需求:显示不同的电影的排片占比电影排片:数据准备:movie_name = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案'...原创 2019-03-08 10:58:03 · 12808 阅读 · 2 评论 -
数据分析之Pandas(七)高级处理-缺失值处理
缺失值处理缺失值是怎么来的?调查问卷:女性的美容方面的问题name:age: 不愿意透露年龄(收集不到,空值)phone: 不愿意透露年龄xx:yy:它对数据分析有什么影响?影响分析准确性如何处理nan对于NaN的数据,在numpy中我们是如何处理的?在pandas中我们处理起来非常容易判断数据是否为NaN:pd.isnull(df)pd.notnull(df)...原创 2019-03-18 13:50:11 · 1102 阅读 · 0 评论 -
数据分析之MySQL(二)MySQL安装
MySQL安装服务器端安装安装mysql服务端安装: sudo apt-get install mysql-server命令管理:服务器的开、关、重启、查看开: sudo service mysql start关:sudo service mysql stop重启: sudo service mysql restart查看进程:linux命令:ps -aux | grep...原创 2019-03-21 18:39:38 · 256 阅读 · 0 评论