欢迎使用CSDN-markdown编辑器

原创 2017年11月15日 11:35:39

scikit-learn:基于Python语言的机器学习工具

scikit-learn(中文网站)是python中一个非常强大的开源工具包,集合了机器学习中经典的分类、回归、聚类算法及数据处理方法,是数据挖掘和数据分析领域的简单而有效的开发工具。

  • 分类算法 Classification
    支持向量机 SVM
    最近邻法
    gradient boosting
  • 回归算法 Regression
    支持向量回归 SVR
    Lasso
  • 聚类算法 Clustering
    K-Means
    谱聚类 spectral clustering
    mean-shift
    DBSCAN
  • 特征工程方法
    sklearn 特征工程

    • 数据预处理
      from sklearn.preprocessing import *
      1.数据标准化 StandardScaler
      2.区间缩放法 MinMaxScaler
      3.归一化 Normalizer
      4.特征二值化(定量特征) Binarizer
      5.One-Hot编码(定性特征或类型特征) OneHotEncoder
      6.缺失值计算 Imputer
      7.数据变换 PolynomialFeatures

    • 特征选择
      from sklearn.feature_selection import *
      1.方差选择法 VarianceThreshold(threshold=3)
      2.相关系数法 SelectKBest()
      3.卡方检验 SelectKBest(chi2)
      4.互信息法 SelectKBest()
      5.递归特征消除法 RFE(estimator = LogisticRefression(), n_features_to_select=2)
      6.基于惩罚项的特征选择法 SelectFromModel(LogisticRegression(penalty=”l1”, C=0.1))
      6.基于树模型的特征选择法 SelectFromModel(GradientBoostingClassifier())

    • 降维
      from sklearn.decomposition import *
      1.主成分分析法 PCA
      2.线性判别分析法 LDA

数据特征相关方法说明如下图

参数列表 类别 fit方法是否有用 说明
sklearn.preprocessing StandardScaler 特征 无监督 Y 标准化
sklearn.preprocessing MinMaxScaler 特征 无监督 Y 区间缩放
sklearn.preprocessing Normalizer 特征 无信息 N 归一化
sklearn.preprocessing Binarizer 特征 无信息 N 定量特征二值化
sklearn.preprocessing OneHotEncoder 特征 无监督 Y 定性特征编码
sklearn.preprocessing Imputer 特征 无监督 Y 缺失值计算
sklearn.preprocessing PolynomialFeatures 特征 无信息 N 多项式变换(fit方法仅仅生成了多项式的表达式)
sklearn.preprocessing FunctionTransformer 特征 无信息 N 自定义函数变换(自定义函数在transform方法中调用)
sklearn.feature_selection VarianceThreshold 特征 无监督 Y 方差选择法
sklearn.feature_selection SelectKBest 特征/特征+目标值 无监督/有监督 Y 自定义特征评分选择法
sklearn.feature_selection SelectKBest+chi2 特征+目标值 有监督 Y 卡方检验选择法
sklearn.feature_selection RFE 特征+目标值 有监督 Y 递归特征消除法
sklearn.feature_selection SelectFromModel 特征+目标值 有监督 Y 自定义模型训练选择法
sklearn.decomposition PCA 特征 无监督 Y PCA降维
sklearn.lda LDA 特征+目标值 有监督 Y LDA降维

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

欢迎使用CSDN-markdown编辑器

  • 2015年10月14日 10:47
  • 5KB
  • 下载

欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和...

欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和...
  • jxm_96
  • jxm_96
  • 2016年07月07日 19:53
  • 206

欢迎使用CSDN-markdown编辑器

写东西晚啦,上次写博客应该是俩月前了。工作快一个月了,一直在学习H5、div+css。工作需要,慢慢来。用css实现一个下拉列表,借用网友的代码: box,#box2,#box3,#box4{p...

gulp常用

全局安装 gulp=>$ npm install –global gulp 作为项目的开发依赖(devDependencies)安装: $ npm install –save-dev gulp 在项...

欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和...
  • wee616
  • wee616
  • 2016年11月01日 22:32
  • 91

欢迎使用CSDN-markdown编辑器

1. 软件生命周期(SDLC)的六个阶段 1、问题的定义及规划 此阶段是软件开发方与需求方共同讨论,主要确定软件的开发目标及其可行性。 2、需求分析 在确定软件开...
  • wwsMr
  • wwsMr
  • 2015年12月27日 21:17
  • 161

第一行代码 服务

10 服务10.1服务是什么服务(Service)是Android中实现程序后台运行的解决方案,适合执行不需要和用户交互但还要求长期执行的任务。 服务的运行不依赖于任何用户界面。 服务并不是运行在...

欢迎使用CSDN-markdown编辑器

列表一切数据都可以打包进去的数据容器member = [‘xiaoji��’,’小布丁’,’黑夜’ ]添加元素member.append(?)len(member)member.append(只要一个...

欢迎使用CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和...
  • geself
  • geself
  • 2017年05月17日 09:47
  • 42
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:欢迎使用CSDN-markdown编辑器
举报原因:
原因补充:

(最多只允许输入30个字)