数据挖掘小白的自存笔记
本笔记目的
在做学习EDA的时候发现大神用各种各样的图,于是就很懵逼什么情况下该用什么样的图,花了4个小时浏览了几十个网页,去掉了重复和比较水的网页.保留下几个.
成果
[对信息中包含的5种关系,可以简单归纳如下:]
-
构成:占总体的百分比
-表达的信息包括:“份额”、“百分比”以及“预计将达到百分之多少”,这时候可以用到饼图 -
比较:项目的排名
-比较可以展示事物的排列顺序——是“大于”、“小于”或者“大致相当”都是比较相对关系中的关键词,这时候会首选条图; -
趋势:如何随着时间变化
-关心数据如何随着时间变化, -
分布:项目的频率情况
-是关心各数值范围内各包含了多少项目,型的信息会包含:“集中”、“频率”与“分布”等,这时候使用柱图 -
联系:变量之间的关系
-查看两个变量之间是否表达出我们预期所要证明的模式关系,用于表达“与……有关”、“随……而增长”、“随……而不同”变量间的关系,这时候可以用气泡图来展示
选图快速浏览1(点击跳转大图)
选图快速浏览2(点击跳转大图)
原文连接:https://zhuanlan.zhihu.com/p/74809696
选图快速浏览3(点击跳转大图)
原文连接:https://zhuanlan.zhihu.com/p/74809696
链接2 各图使用场景
说明:链接2比链接3写的好(详细,举例说明等),但是图类型少一些
链接3 各图使用场景
说明:对链接2的补充(热力图,柱线图,瀑布图,桑葚图,雷达图,漏斗图,箱线图)
链接4 50种图现成代码总结
说明:这是我目前找到最好的代码总结,不仅分类了还有注释说明
实战常用:
- 散点图: 分析变量关系
- 曲线图: 拟合变量关系
- 带置信区间的曲线图: 评估曲线拟合结果
- 双坐标曲线图: 分析不同尺度/多变量的关系
- 堆叠直方图: 比较两个分布
- 密度图: 精细刻画概率分布
- 柱状图:同级类间均值/方差等比较
- 堆积柱状图:多级类间相对占比比较
- 箱式图:多级类间数据分布比较