数据分析与数据挖掘
ZOU JM
这个作者很懒,什么都没留下…
展开
-
【数据分析与数据挖掘】一、数据分析概述
1.数据分析概述(1)数据分析利用统计学的方法,在数据中提取有用的信息,并进行总结与概括的过程。(2)数据分析与挖掘的流程数据获取 —> 探索分析 —> 预处理 —> 数据建模 —> 模型评估。 数据获取的方法有很多,例如网页抓取或者产品日志获取; 获取后存储的方式最常见的是把数据整理成表格的形式; 整理完之后,找出数据有哪些属...原创 2019-05-06 09:50:44 · 602 阅读 · 0 评论 -
【数据分析与数据挖掘】二、数据获取方法汇总
目录1.数据获取手段(1)数据仓库(2)监测与抓取(3)填写、埋点、日志(4)计算2.好用的数据学习网站1.数据获取手段数据获取手段有:数据仓库,监测与抓取,填写、日志、埋点,计算等。(1)数据仓库如果一个网站是卖书的,建立的数据库存储书的信息,用户的信息等,当网站扩展到一定规模时,遇到一个很重要的方向问题,该卖哪些书,该着重面向什么人群推荐什么书,这时仅仅...原创 2019-05-06 09:53:50 · 1822 阅读 · 0 评论 -
【数据分析与数据挖掘】三、单因子探索分析与可视化(中)
目录3.数据分类4.单属性分析5.对HR.csv中的属性进行分析3.数据分类(1)定类(类别):根据事物离散、无差别属性进行的分类,例如性别、名族;(2)定序(顺序):可以界定数据的大小,但不能测定差值。例如:收入:高、中、低;(3)定距(间距):可以界定数据大小的同时,可测定差值,但无绝对零点;(无零点,说明乘法、除法、比率是没有意义的)。例如:不能说20摄氏度是10...原创 2019-05-08 21:35:04 · 527 阅读 · 0 评论 -
【数据分析与数据挖掘】三、单因子探索分析与可视化(上)
目录1.单因子分析和对比分析必要的理论知识2.编码实现1.单因子分析和对比分析必要的理论知识集中趋势:均值,中位数,分位数,众数离中趋势:标准差、方差数据分布:偏态与峰态、正太分布于三大分布抽样理论:抽样误差、抽样精度(1)集中趋势:均值,中位数,分位数,众数 均值:经常用来衡量连续值、分布比较规律的连续值的集中趋势 中位数:衡量异常值(有些值...原创 2019-05-07 23:10:57 · 651 阅读 · 0 评论 -
【数据分析与数据挖掘】三、单因子探索分析与可视化(下)
目录1.函数讲解(1)matplotlib.pyplot.xticks(ticks, [labels], **kwargs)2.柱状图3.直方图4.箱线图5.折线图6.饼图python可视化工具:matplotlib、seaborn、plotly.1.函数讲解(1)matplotlib.pyplot.xticks(ticks, [labels], **kwa...原创 2019-05-16 22:33:52 · 388 阅读 · 0 评论 -
【数据分析与数据挖掘】四、多因子与复合分析(上)
这一章内容:属性与属性之间常见的联系。理论铺垫:假设检验与方差检验; 相关系数:皮尔逊、斯皮尔曼; 回归:线性回归; PCA与奇异值分解;1.假设检验概念:做出一个假设,根据数据已知的分布性质,来推断该假设成立的概率有多大。过程:step1:建立原假设H0,H0的反命题为H1,也叫备择假设。一般情况下,原假设的分布是符合该分布的,而备择假设是不符合该分布的。step...原创 2019-05-17 12:18:50 · 4034 阅读 · 0 评论 -
大数据核心技术
该文章从知乎转载过来,做个笔记。作者:帆软链接:https://www.zhihu.com/question/27696290/answer/668243645来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。简单来说,从大数据的生命周期来看,无外乎四个方面:大数据采集、大数据预处理、大数据存储、大数据分析,共同组成了大数据生命周期里最核心的技术,下面分开...原创 2019-05-18 21:14:00 · 1703 阅读 · 0 评论