学习的流程:数据获取->探索分析与可视化->预处理理论->分析建模->模型评估
什么是数据分析?
用统计分析方法,提取有用的信息,总结和概括。
(了解一下超市购物系统可以判断用户怀孕(塔吉特)、总统选举预测、啤酒和尿布、勇士队的训练、商品推荐算法。)
1.数据获取:
常用手段:数据仓库、检测与抓取、填写、日志、埋点、计算。
常用的数据学习的网站:kaggle、阿里云天池、ImageNet、Open Images。
2.探索分析与可视化:
了解常用的分析数值的方法和各类图像的使用和应用。
3.理论铺垫:
集中趋势:均值、中位数与分位数、众数
离中趋势:标准差、方差
数据分布:偏态与峰态、正态分布与三大分布
4.抽样理论:抽样误差、抽样精度
集中趋势:它是一组数据的代表值。集中趋势的概念就是平均数的概念,它能够对总体的某一特征具有代表性,表明所研究的舆论现象在一定时间、空间条件下的共同性质和一般水平。
集中趋势代表值的方法有两种:数值平均数和位置平均数。
数值平均数:数值平均数有算术平均数、调和平均数、几何平均数等。
位置平均数:众数、中位数、分位数等。
离中趋势:离中趋势又称“差异量数”、“标志变动度”等。指在数列中各个数值之间的差距和离散程度。离中趋势的测定是对统计资料分散状况的测定,即找出各个变量值与集中趋势的偏离程度。通过测定离中趋势,可以清楚地了解一组变量值的分布情况。
标准差:
偏态与峰态:
偏态:指非对称分布的偏斜状态。
峰态:对数据分布平峰或尖峰程度的测度。
偏态系数:
峰态系数:
正态分布与三大分布:
卡方分布:设 X1,X2,......Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ2=X12+X22+......+Xn2所服从的分布为自由度为 n 的χ2分布.
t分布:设X1服从标准正态分布N(0,1),X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量t=X1/(X2/n)1/2 所服从的分布为自由度为n的t分布。
F分布:设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n.
抽样理论:
关于常用的pandas的知识:推荐一个其他人整理的博客,可以看一下 https://blog.csdn.net/yiyele/article/details/80605909
以及一个scipy的基础知识的链接:https://www.jianshu.com/p/6c742912047f
数据分类:
统计学上分为四类:定类(类别):根据事物离散、无差别属性的分类。
定序(顺序):可以界定数据的大小,但是不能预定差值。
定距(间隔):可以界定数据大小的同时,可以预测差值,但无绝对零点。
定比(比率):可以界定数据大小,可以预定差值,有绝对零点。