Python数据挖掘学习1数据理论及数据分类

最新推荐文章于 2024-05-31 08:18:49 发布

任菜菜学编程

最新推荐文章于 2024-05-31 08:18:49 发布

阅读量379

点赞数

分类专栏： python 人工智能文章标签：人工智能数据挖掘 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/RHJlife/article/details/89183780

版权

python 同时被 3 个专栏收录

76 篇文章 2 订阅

订阅专栏

67 篇文章 11 订阅

订阅专栏

16 篇文章 0 订阅

订阅专栏

学习的流程：数据获取->探索分析与可视化->预处理理论->分析建模->模型评估

什么是数据分析？

用统计分析方法，提取有用的信息，总结和概括。

(了解一下超市购物系统可以判断用户怀孕（塔吉特）、总统选举预测、啤酒和尿布、勇士队的训练、商品推荐算法。)

1.数据获取：

常用手段：数据仓库、检测与抓取、填写、日志、埋点、计算。

常用的数据学习的网站：kaggle、阿里云天池、ImageNet、Open Images。

2.探索分析与可视化：

了解常用的分析数值的方法和各类图像的使用和应用。

3.理论铺垫：

集中趋势：均值、中位数与分位数、众数

离中趋势：标准差、方差

数据分布：偏态与峰态、正态分布与三大分布

4.抽样理论：抽样误差、抽样精度

集中趋势：它是一组数据的代表值。集中趋势的概念就是平均数的概念，它能够对总体的某一特征具有代表性，表明所研究的舆论现象在一定时间、空间条件下的共同性质和一般水平。

集中趋势代表值的方法有两种：数值平均数和位置平均数。

数值平均数：数值平均数有算术平均数、调和平均数、几何平均数等。

位置平均数：众数、中位数、分位数等。

离中趋势：离中趋势又称“差异量数”、“标志变动度”等。指在数列中各个数值之间的差距和离散程度。离中趋势的测定是对统计资料分散状况的测定，即找出各个变量值与集中趋势的偏离程度。通过测定离中趋势，可以清楚地了解一组变量值的分布情况。

标准差：

偏态与峰态：

偏态：指非对称分布的偏斜状态。

峰态：对数据分布平峰或尖峰程度的测度。

偏态系数：

峰态系数：

正态分布与三大分布：

卡方分布：设 X1,X2,......Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ2=X12+X22+......+Xn2所服从的分布为自由度为 n 的χ2分布.

t分布：设X1服从标准正态分布N(0,1)，X2服从自由度为n的χ2分布，且X1、X2相互独立，则称变量t=X1/（X2/n）1/2 所服从的分布为自由度为n的t分布。

F分布：设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布，且X1、X2相互独立，则称变量F=(X1/m)/(X2/n)所服从的分布为F分布，其中第一自由度为m,第二自由度为n.

抽样理论：

关于常用的pandas的知识：推荐一个其他人整理的博客，可以看一下 https://blog.csdn.net/yiyele/article/details/80605909

以及一个scipy的基础知识的链接：https://www.jianshu.com/p/6c742912047f

数据分类：

统计学上分为四类：定类（类别）：根据事物离散、无差别属性的分类。

定序（顺序）：可以界定数据的大小，但是不能预定差值。

定距（间隔）：可以界定数据大小的同时，可以预测差值，但无绝对零点。

定比（比率）：可以界定数据大小，可以预定差值，有绝对零点。

任菜菜学编程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python数据挖掘学习1数据理论及数据分类

学习的流程：数据获取->探索分析与可视化->预处理理论->分析建模->模型评估什么是数据分析？用统计分析方法，提取有用的信息，总结和概括。 (了解一下超市购物系统可以判断用户怀孕（塔吉特）、总统选举预测、啤酒和尿布、勇士队的训练、商品推荐算法。)1.数据获取： ...
复制链接

扫一扫

专栏目录

任菜菜学编程 CSDN认证博客专家 CSDN认证企业博客

码龄7年

174: 原创

3万+: 周排名

81万+: 总排名

41万+: 访问

: 等级

4909: 积分

392: 粉丝

474: 获赞

175: 评论

2328: 收藏

私信

关注

热门文章

分类专栏

其他 6篇
知识图谱 1篇
深度学习 30篇
人工智能 67篇
NLP 28篇
java 35篇
算法 65篇
python 76篇

最新评论

知识图谱实战：构建红楼梦知识图谱
c_kuangxiaolin: 换成utf8了有的字符还会乱码不知道为什么
知识图谱实战：构建红楼梦知识图谱
jadalax: 调了三天neo4j，终于成功了，感谢楼主提供的项目，感觉我又行了👍👍
RNN-LSTM实现AI作曲实例
m0_66397364: 求发资源，目前也是一直在研究AI作曲相关，希望能学习一下经验，谢谢谢谢谢谢谢博主~ 邮箱：965450029@qq.com
RNN-LSTM实现AI作曲实例
鬼弑神: 博主您好，我最近一直在找类似这样的AI作曲，但是很少，希望能学习一下您的代码和训练集，如果可以的话，邮箱2384699221@qq.com，万分感谢！
RNN-LSTM实现AI作曲实例
fusée212: 博主您好，我最近一直在找类似这样的AI作曲但是很少，希望能学习一下您的代码和训练集，如果可以的话，邮箱1105881901@qq.com，万分感谢！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。