数据分析
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们做出判断,以便采取适当行动。
数据可视化
数据可视化是关于数据视觉表现形式的科学。其中,这种表现形式被定义为一种包括相应信息单位的各种属性和变量的信息抽取和提炼。
数据集网站
- https://www.cia.gov/library/publications/the-world-factbook/
- 美国 DATA.gov
数据清洗
- 缺失值
- 丢弃 比例低于10% 缺失值没有明显的数据分布规律或特征
- 补全
- 统计法:使用均值、加权值、中位数等
- 模型法:进行预测,从而得到最为可能的补全值
- 专家补全:对于少量且具有重要意义的数据记录
- 其他方法:如随机法。特殊值法、多重填补等
- 真值转换
- 承认缺失值的存在,并且把数据缺失也作为数据分布规律的一部分
- 不处理
- KNN、决策树和随机森林、神经网络和朴素贝叶斯、DBSCAN
- 异常值
- 伪异常
- 这些异常是由于业务特定运营动作产生,其实是正常反应业务状态,如果抛弃异常值将导致无法正确反馈业务结果
- 真异常
- 异常数据本身是目标数据,如果被处理掉将损失关键信息
- 伪异常