数据分析及可视化的概念
数据分析是指用适当的同级分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
步骤:收集数据——>提取信息——>形成结论
最后借助图形表示数据
数据分析可视化流程
- 定义分析目标
- 数据采集及预处理
- 数据分析挖掘
- 数据可视化
数据清洗
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
数据分析案例 - 电影院以电影放映时间和入座率的时间序列模型进行排片
- 网点挖掘商品售卖记录进行更科学的定价
- 城市根据交通情况绘制热力图,优化图形效率。
如:美国啤酒和尿布——也涉及机器学习
常见的可视化形式 - 统计图(直方图,折行图,饼图)
- 分布图(热力图,散点图,气泡图)
常见可视化工具 - 分析工具:pandas,SciPy,numpy,sklearn
- 绘图工具:matplotlib,Pychart,reportlab
- 平台工具:Jupyter Notebook,Pycharm
Matplotlib是Python的绘图库,它可与Numpy一起使用,提供了一种有效开源替代方案。它也可以和图形工具包一起使用,如PyQt何vxPython
具体绘图案列请查看https://blog.csdn.net/qq_43540348/article/details/101175221?utm_source=app