Python数据挖掘学习1数据理论及数据分类

67 篇文章 11 订阅
16 篇文章 0 订阅

学习的流程:数据获取->探索分析与可视化->预处理理论->分析建模->模型评估

什么是数据分析?

                              用统计分析方法,提取有用的信息,总结和概括。

    (了解一下超市购物系统可以判断用户怀孕(塔吉特)、总统选举预测、啤酒和尿布、勇士队的训练、商品推荐算法。)

1.数据获取:

                     常用手段:数据仓库、检测与抓取、填写、日志、埋点、计算。

                     常用的数据学习的网站:kaggle、阿里云天池、ImageNet、Open Images。

2.探索分析与可视化:

                     了解常用的分析数值的方法和各类图像的使用和应用。

3.理论铺垫:

                     集中趋势:均值、中位数与分位数、众数

                     离中趋势:标准差、方差

                     数据分布:偏态与峰态、正态分布与三大分布

 4.抽样理论:抽样误差、抽样精度

     集中趋势:它是一组数据的代表值。集中趋势的概念就是平均数的概念,它能够对总体的某一特征具有代表性,表明所研究的舆论现象在一定时间、空间条件下的共同性质和一般水平。

              集中趋势代表值的方法有两种:数值平均数和位置平均数。

                  数值平均数:数值平均数有算术平均数调和平均数几何平均数等。

                 位置平均数:众数、中位数、分位数等。

                               

    离中趋势:离中趋势又称“差异量数”、“标志变动度”等。指在数列中各个数值之间的差距和离散程度。离中趋势的测定是对统计资料分散状况的测定,即找出各个变量值与集中趋势的偏离程度。通过测定离中趋势,可以清楚地了解一组变量值的分布情况。

   标准差:

偏态与峰态:

        偏态:指非对称分布的偏斜状态。

        峰态:对数据分布平峰或尖峰程度的测度。

        偏态系数:

        峰态系数:

正态分布与三大分布:

              卡方分布:设 X1,X2,......Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ2=X12+X22+......+Xn2所服从的分布为自由度为 n 的χ2分布.

               t分布:设X1服从标准正态分布N(0,1),X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量t=X1/(X2/n)1/2 所服从的分布为自由度为n的t分布。 

               F分布:设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n.

抽样理论:

                                

                 关于常用的pandas的知识:推荐一个其他人整理的博客,可以看一下          https://blog.csdn.net/yiyele/article/details/80605909

                以及一个scipy的基础知识的链接:https://www.jianshu.com/p/6c742912047f

数据分类:

     统计学上分为四类:定类(类别):根据事物离散、无差别属性的分类。

               定序(顺序):可以界定数据的大小,但是不能预定差值。

               定距(间隔):可以界定数据大小的同时,可以预测差值,但无绝对零点。

               定比(比率):可以界定数据大小,可以预定差值,有绝对零点。
 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值