1、数据挖掘能够解决什么样的问题?
数据挖掘可以实现分类,聚类,关联和预测,从而将商业运营问题转化为大数据挖掘问题
2、常见的分类方法
决策树、贝叶斯、KNN、支持向量机、神经网络和逻辑回归等
3、常见的聚类算法
例如划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等
4、常见的关联分析算法
Aprior算法、Carma算法,序列算法等
5、常见的预测算法
简单线性回归分析、多重线性回归分析、时间序列等
6、实现数据挖掘的工具
第一层级:达到理解入门层次,了解统计学和数据库即可。
第二层级:达到初级职场应用层次,数据库+统计学+SPSS(也可以是SPSS代替软件)
第三层级:达到中级职场应用层次,SAS或R
第四层级:达到数据挖掘师层次,SAS或R+Python(或其他编程语言)
7、用Python学习大数据挖掘
(1)Pandas库的操作
Panda是数据分析特别重要的一个库,我们要掌握以下三点:
pandas 分组计算;
pandas 索引与多重索引;
索引比较难,但是却是非常重要的
pandas 多表操作与数据透视表
(2)numpy数值计算
numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:
Numpy array理解;
数组索引操作;
数组计算;
Broadcasting(线性代数里面的知识)
(3)数据可视化-matplotlib与seaborn
Matplotib语法
python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。
seaborn的使用
seaborn是一个非常漂亮的可视化工具
pandas绘图功能
前面说过pandas是做数据分析的,但它也提供了一些绘图的API。
(4)数据挖掘入门
这部分是最难也是最有意思的一部分,要掌握以下几个部分:
机器学习的定义
在这里跟数据挖掘先不做区别
代价函数的定义
Train/Test/Validate
Overfitting的定义与避免方法
(5)数据挖掘算法
数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法:
最小二乘算法;
梯度下降;
向量化;
极大似然估计;
Logistic Regression;
Decision Tree;
RandomForesr;
XGBoost;
(6)数据挖掘实战
通过机器学习里面最著名的库scikit-learn来进行模型的理解。