1.定义挖掘目标
2.数据取样
3.数据探索
4.数据预处理
5.挖掘建模
6.模型评价
常用工具:
1. SAS Enterprise Miner
2.IBM SPSS Modeler
3.SQL Server
4.Python
5.WEKA
6.KNIME
7.RapidMiner
8.TipDM
Python 工具包:
Numpy Scipy Matplotlib Pandas StatsModels Scikit-Learn
数组 矩阵 数据可视化 数据分析和探索工具 统计建模 支持回归、分类、聚类的机器学习库
Keras Gensim
神经网络和深度学习 文本挖掘
学习笔记:
函数式编程
lambda() 、map() 、reduce()、filter()、
matplotlib绘图:
https://matplotlib.org/gallery.html
Pandas: 1.支持类似SQL的增、删、改、查
2.支持时间序列分析功能
3.支持灵活处理确实数据
《利用Python 进行数据分析》
Pandas基本的数据结构是Series 和dataframe 类似 一维数组和二维数组
Pandas :用于数据的读取、处理和探索
StatsModels:支持统计建模分析