scikit-learn机器学习模块(上)

scikit-learn中的数据

数据格式:2维数组或者矩阵,[n_samples, n_features]

包含数据集:Iris data ,digits data, boston data(housing price), diabetes data例如:

from sklearn.datasets import load_iris

 
 >>> iris = load_iris() -->其中含有iris.data和iris.target
我们可以通过print(data.DESCR)去查看关于数据集的详细信息


scikit-learn中的机器学习基本原理

线性回归

from sklearn.linear_model import LinearRegression
模型中的参数是可以初始化的,如:

model = LinearRegression(normalize=True)
当给定训练数据x和y时,模型拟合只需要调用:

model.fit(X, y)
另外,可以通过调用model的coef_值来查看训练得到的系数


最近邻算法

from sklearn import neighbors
neighbors中包含了KNN算法模型,通过以下调用(参数设置最近邻N的个数):

knn = neighbors.KNeighborsClassifier(n_neighbors=1)

 
 knn.fit(X, y)
由于KNN算法是不需要训练的,待预测样本直接通过给定的样本找到最近的样本进行相应分类即可:

knn.predict(x),例如x = [[3, 5, 4, 2]]

线性SVM分类

from sklearn.svm import LinearSVC
 LinearSVC(loss='l1')或l2



从以上两个例子可以看到,我们将不同类型算法的“估算器”赋予给model变量,model在对训练样本学习时,只需要调用model.fit(X, y)

对于监督式的评估器,预测新数据的方式为:model.predict(X_new)

对于分类问题,有些评估器提供model.predict_proba()方法,返回的是每种类别的概率,概率最大的类别对应了model.predict()

对于非监督式的评估器,可以对特征进行转换,无监督转换指只利用特征的统计信息的转换,统计信息包括均值、标准差、边界等等,比如标准化、PCA法降维等。

例如model.transform()和model.fit_transform(x, y = None)这二者的区别在于

fit_transform需要先拟合数据,这里所说的拟合,不是指含有目标Y的那种拟合,而是根据给定数据找到相应的统计信息,如均值和标准差;

而transform一般用于测试数据,不需要再拟合,而是直接使用训练数据拟合好的统计信息,如均值和标准差,对测试数据进行处理;

其它的模型方法,需要使用时再查阅即可。


数据降维PCA

PCA,主成分分析,可以对数据进行降维,以手写字符为例:

from sklearn.decomposition import PCA

 
 >>> pca = PCA(n_components=2) ##降至2个维度

 
 >>> proj = pca.fit_transform(digits.data) ##

 
 >>> plt.scatter(proj[:, 0], proj[:, 1], c=digits.target) 

高斯朴素贝叶斯分类

高斯朴素贝叶斯分类方法是种简单快速的方法,如果简单且快速的方法足以使结果满意,则无需浪费过多CPU资源设计复杂算法-->sklearn.naive_bayes.GaussianNB

高斯朴素贝叶斯对每个相同label的数据进行高斯拟合,然后对测试数据进行大致的分类,尽管对于现实世界的拟合不是很准确,但也很不错,特别对于文本数据

from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
train_test_split可以自动把数据随机分成训练集和测试集:

X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target)
该算法调用方法与上一致,具体使用再好好研究其中参数

clf = GaussianNB()
clf.fit(X_train, y_train)
测试时

predicted = clf.predict(X_test)


结果的量化分析

在模块sklearn.metrics中有许多成熟的度量方法:

from sklearn import metrics

 
 >>> print(metrics.classification_report(expected, predicted))
对于分类的评判,会返回精度precision、召回率recall、f1-score和support

另一种是混淆矩阵,调用方式如下:

metrics.confusion_matrix(expected, predicted)
可以帮助我们看到每一类的误分情况

有时候我们可以将每一维特征和结果的关系画图,手工选择有用的特征


Gradient Boosting Tree Regression

 GBT是一种很强大的回归树

from sklearn.ensemble import GradientBoostingRegressor
clf = GradientBoostingRegressor()

 
 clf.fit(X_train, y_train)

 
 

 
 predicted = clf.predict(X_test)


另外:

(回归)决策树Decision Tree

from sklearn.tree import DecisionTreeRegressor


待续……









  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
资源包主要包含以下内容: ASP项目源码:每个资源包中都包含完整的ASP项目源码,这些源码采用了经典的ASP技术开发,结构清晰、注释详细,帮助用户轻松理解整个项目的逻辑和实现方式。通过这些源码,用户可以学习到ASP的基本语法、服务器端脚本编写方法、数据库操作、用户权限管理等关键技术。 数据库设计文件:为了方便用户更好地理解系统的后台逻辑,每个项目中都附带了完整的数据库设计文件。这些文件通常包括数据库结构图、数据表设计文档,以及示例数据SQL脚本。用户可以通过这些文件快速搭建项目所需的数据库环境,并了解各个数据表之间的关系和作用。 详细的开发文档:每个资源包都附有详细的开发文档,文档内容包括项目背景介绍、功能模块说明、系统流程图、用户界面设计以及关键代码解析等。这些文档为用户提供了深入的学习材料,使得即便是从零开始的开发者也能逐步掌握项目开发的全过程。 项目演示与使用指南:为帮助用户更好地理解和使用这些ASP项目,每个资源包中都包含项目的演示文件和使用指南。演示文件通常以视频或图文形式展示项目的主要功能和操作流程,使用指南则详细说明了如何配置开发环境、部署项目以及常见问题的解决方法。 毕业设计参考:对于正在准备毕业设计的学生来说,这些资源包是绝佳的参考材料。每个项目不仅功能完善、结构清晰,还符合常见的毕业设计要求和标准。通过这些项目,学生可以学习到如何从零开始构建一个完整的Web系统,并积累丰富的项目经验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值