python 超全sklearn教程,数据挖掘从入门到入坑

最近工作中遇到了一些数据建模的问题,趁这几天有时间,把数据挖掘过程中一些流程规范和常见的机器学习问题总结一下。本篇博文涵盖的内容有机器学习的概念,模型分类(有监督、无监督),python语言与R语言,以及基于sklearn的机器学习框架。

一、什么是机器学习

机器学习概念的来自计算机科学领域,相关的一些研究与统计学有很大的重复部分。人类个体的学习是由客观世界给出的反馈然后进行向最优方向调节的过程,计算机科学家认为机器也可以像人脑一样进行学习,基于他们的数学功底,开发出的算法命名为机器学习。学习的本质是一大批互相连接的信息传递和存储元素所组成的系统。他们共同的特点是:开始准确率很低,随着学习进行,准确率越来越高。

让计算机学习分辨标签

二、机器学习方法的分类

2.1 监督式学习 Supervised Learning

在监督式学习下,每组训练数据都有一个标识值或结果值(target)。

2.1.1 分类 Classification

(1)K最近邻 K-Nearest Neighbor (KNN)
(2)朴素贝叶斯 Naive Bayes
(3)决策树 Decision Tree

  • ID3
  • C4.5
  • 分类回归树 Classification And Regression Tree (CART)

这里写图片描述
区别:决策树系列算法总结(ID3, C4.5, CART, Random Forest, GBDT)
(4)支持向量机器 Support Vector Machine (SVM)

2.1.2 回归 Regression

(1)线性回归 linear regression
(2)局部加权回归 Locally weighted regression
(3)逻辑回归 logistic Regression
(4)逐步回归 stepwise regression
(5)岭回归 Ridge Regression
(6)Least Absolute Shrinkage and Selection Operator ( LASSO )
(7)弹性网络 Elastic Net (L1+L2)
(8)人工神经网络

2.2 非监督学习 Unsupervised Learning

(1)聚类 Cluster (K均值 k-means)
(2)主成分分析Principal Component Analysis ( PCA )
(3)偏最小二乘回归 Partial Least Squares Regression ( PLS )
(4)关联规则 Association Rule

2.3 半监督

在半监督学习方式下,训练数据有部分被标识,部分没有被标识,这种模型首先需要学习数据的内在结构,以便合理的组织数据来进行预测。算法上,包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如深度学习:

深度学习 Deep Learning

深度学习是 监督学习的匹配学习中人工神经网络延伸出来发展出来的。
(1)受限波尔兹曼机 Restricted Boltzmann Machine ( RBM )
(2)深度信念网络 Deep Belief Networks ( DBN )
(3)卷积网络 Convolutional Network
(4)栈式自编码 Stacked Auto-encoders

2.4 增强学习 Reinforcement Learning

增强学习应用范围在机器人和工业界比较多,与深度学习结合较多,目前暂不了解。
(1)Q-Learning
(2)时间差学习 Temporal difference learning

2.5 机器学习分类面试考点

一般笔试题都会问一道题,以下降维算法是否属于监督(非监督),在这里总结以下。

  • 主成分分析(Principal Component Analysis,PCA)
  • 线性判别分析(Linear Discriminant Analysis,LDA
  • 等距映射(Isomap
  • 局部线性嵌入(Locally Linear Embedding,LLE
  • Laplacian 特征映射(Laplacian Eigenmaps
  • 局部保留投影(Local Preserving Projection,LPP
  • 局部切空间排列(Local Tangent Space Alignment,LTSA
  • 最大方差展开( Maximum Variance Unfolding,MVU
  • 9
    点赞
  • 80
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值