![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
重整《数据分析实战45讲》
小白掌柜
Atypical programmer
展开
-
回炉整理《数据分析实战45讲》之基础篇 -- 13.数据变换(二)
(接昨天的)下面我们来看分别用Min-Max归一化、Z-Score标准化对Sklearn数据集里面的鸢尾花数据集进行处理的差别:这是用Min-Max归一化处理后的鸢尾花数据可视化图:原创 2020-07-09 20:47:27 · 457 阅读 · 0 评论 -
回炉整理《数据分析实战45讲》之基础篇 -- 13.数据变换(一)
(PS: 先跳过十二章,因为那章讲数据集成,这个后面再一起讲,因为要讲的比较多。此外,下文若有错误,请指正,谢谢!????)这次是第十三章:13 | 数据变换:考试成绩要求正态分布合理么?该章主要讲数据变换的几种方法中的数据规范化是什么,以及如何用sklearn里面的processing包来处理数据。还有其他变换的方法比如数据平滑、数据聚集、数据概化和属性构造等方式,它们都可以将(特征)数据转换成适用于数据挖掘的形式。所以数据变换也可以理解为对要挖掘的特征进行变换(用英文更专业点,叫Featur原创 2020-06-30 20:46:49 · 507 阅读 · 0 评论 -
回炉整理《数据分析实战45讲》之基础篇 -- 11.数据清洗(二)
上篇补了 “完全合一” 中的“完整性”这个部分掌柜觉得需要了解的知识点,接下来继续看全面性。还是回到服装店会员数据表那里,掌柜觉得这里的“全面性”指的是数据要规范:即大小写要统一、有单位的要统一单位、数据长度也要一致(小数点后面是几位都要统一)、数据名称保持一致等。那么再看这里的表格可以发现出现了单位不统一以及之前对均值填充的时候小数点位数变多的情况,只需要统一单位和小数点位数即可。这里把年龄...原创 2020-04-18 19:06:33 · 323 阅读 · 0 评论 -
回炉整理《数据分析实战45讲》之基础篇 -- 11.数据清洗(一)
之前学了陈旸老师的《数据分析实战45讲》(掌柜现在觉得该课程偏向于技术方向的数据挖掘),让掌柜对数据分析的工具(主要是Pandas、Numpy、Matplotlib以及Scikit-learn)使用和步骤有了一个大致的了解。但是学完后还是觉得里面漏了一些细节的东西,比如时间序列那里没有讲对差分次数d的查找;泰坦尼克号项目分析的时候只浅谈了交叉验证方法等。于是掌柜就开了这个项目(还没写,就居然有人...原创 2020-04-16 12:34:52 · 713 阅读 · 0 评论