数据挖掘第一课(学习规划)

1、数据挖掘能够解决什么样的问题?

数据挖掘可以实现分类,聚类,关联和预测,从而将商业运营问题转化为大数据挖掘问题

2、常见的分类方法

决策树、贝叶斯、KNN、支持向量机、神经网络和逻辑回归等

3、常见的聚类算法

例如划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等

4、常见的关联分析算法

Aprior算法、Carma算法,序列算法等

5、常见的预测算法

简单线性回归分析、多重线性回归分析、时间序列等

6、实现数据挖掘的工具

第一层级:达到理解入门层次,了解统计学和数据库即可。

第二层级:达到初级职场应用层次,数据库+统计学+SPSS(也可以是SPSS代替软件)

第三层级:达到中级职场应用层次,SAS或R

第四层级:达到数据挖掘师层次,SAS或R+Python(或其他编程语言)

7、用Python学习大数据挖掘

(1)Pandas库的操作

Panda是数据分析特别重要的一个库,我们要掌握以下三点:

pandas 分组计算;

pandas 索引与多重索引;

索引比较难,但是却是非常重要的

pandas 多表操作与数据透视表

(2)numpy数值计算

numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:

Numpy array理解;

数组索引操作;

数组计算;

Broadcasting(线性代数里面的知识)

(3)数据可视化-matplotlib与seaborn

Matplotib语法

python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。

seaborn的使用

seaborn是一个非常漂亮的可视化工具

pandas绘图功能

前面说过pandas是做数据分析的,但它也提供了一些绘图的API。

(4)数据挖掘入门

这部分是最难也是最有意思的一部分,要掌握以下几个部分:

机器学习的定义

在这里跟数据挖掘先不做区别

代价函数的定义

Train/Test/Validate

Overfitting的定义与避免方法

(5)数据挖掘算法

数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法:

最小二乘算法;

梯度下降;

向量化;

极大似然估计;

Logistic Regression;

Decision Tree;

RandomForesr;

XGBoost;

(6)数据挖掘实战

通过机器学习里面最著名的库scikit-learn来进行模型的理解。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值