版权声明:本文为博主原创文章,未经博主允许不得转载,转载请注明文章来源,联系方式:vipsummer@139.com https://blog.csdn.net/u012421852/article/details/80577077
1.简介
(1)SciPy,SciPy是一个开源的基于Python的科学计算工具包。
(2)Scikits,基于SciPy针对不同的应用领域发展出众多的分支版本,他们统一称为Scikits,即SciPy工具包的意思
(3)Scikit-learn,是基于SciPy针对机器学习领域发展出的一个分支版本
(4)Scikit-learn本身不支持深度学习
(5)Scikit-learn不支持GPU加速
Scikit-learn需要NumPy和SciPy等其他包的支持,是Python语言针对机器学习而开发的一个开源框架。
Scikit-learn的保守体现:
(1)Scikit-learn只做机器学习的扩展
(2)Scikit-learn只采用经过广泛验证的算法
2.Scikit-learn六大功能
Scikit-learn的基本功能主要被分为六大部分:分类,回归,聚类,数据降维,模型选择和数据预处理
2.1分类
概念:分类给自定对象指定所属类别
范畴:监督学习
最常见的应用场景:垃圾邮件检测、图像识别
已实现算法:支持向量机(SVM,Support Verctor Machine)、K最邻近算法(KNN,K-NearestNeighbor)、逻辑回归(LR,Logistic Regression)、随机森林(RF,Random Forest)、决策树(Decision Tree)、多层感知器(MLP,Multi-layer Perceptron)神经网络等。
2.2回归
概念:预测与给定对象相关联的连续值属性
最常见的应用场景:预测药物反应、预测股票价格
已实现算法:支持向量回归(SVR,Support Vector Regression),脊回归(Ridge Regression),Lasso回归(Lasso Regression),弹性网络(Elastic Net),最小角回归(LARS)、贝叶斯回归(Bayesian Regrssion)等。
2.3聚类
概念:自动识别具有相似属性的给定对象,并将其分组为集合
范畴:无监督学习
最常见的应用场景:顾客细分、实验结果分组
已实现算法:K-均值聚类(K-means),谱聚类(Spectral Clustring)、均值偏移(Mean Shift)、分层聚类、DBSCAN聚类
2.4数据降维
概念:通过降维技术来减少考虑的随机数量的个数
应用场景:可视化处理、效率提升
降维技术算法:主成分分析(PCA,Principal Component Analysis)、非负矩阵分解(NMF,Non-negative Matrix Factorizatio)
2.5模型选择
概念:对给定参数和模型的比较、验证和选择
目的:通过参数调整来提升精度
已实现的模块包括:格点搜索,交叉验证和各种针对预测误差评估的度量函数
2.6数据预处理
概念:数据的特征提取和归一化
归一化:将输入数据转换为具有零均值和单位权方差的新变量。
归一化注意点:因为大多数时候都做不到精确等于0,因此会设置一个可接受的范围,一般都要求落在0-1之间
特征提取:是指将文本和图像数据转化为孔用于机器学习的数字变量。
参考文献:
[1]https://www.leiphone.com/news/201701/ZJMTak4Y8ch3Nwd0.html
---------------------
作者:CV_ML_DP
来源:CSDN
原文:https://blog.csdn.net/u012421852/article/details/80577077
版权声明:本文为博主原创文章,转载请附上博文链接!