sklearn使用方法

最新推荐文章于 2023-11-13 22:23:47 发布

rrr2

最新推荐文章于 2023-11-13 22:23:47 发布

阅读量649

点赞数 2

分类专栏： python 文章标签： sklearn

本文链接：https://blog.csdn.net/qq_35608277/article/details/83479857

版权

python 专栏收录该内容

97 篇文章 2 订阅

订阅专栏

传统的机器学习任务从开始到建模的一般流程是：获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测，分类。

1. 获取数据

导入sklearn数据集

from sklearn import datasets

iris = datasets.load_iris() # 导入数据集
X = iris.data # 获得其特征向量
y = iris.target # 获得样本label

2.数据预处理

from sklearn import preprocessing

3. 数据集拆分

from sklearn.mode_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

4. 定义模型


# 拟合模型
model.fit(X_train, y_train)
# 模型预测
model.predict(X_test)

# 获得这个模型的参数
model.get_params()
# 为模型进行打分
model.score(data_X, data_y) # 线性回归：R square； 分类问题： acc

4.1 线性模型

from sklearn.linear_model import LinearRegression

model = LinearRegression(fit_intercept=True, normalize=False, 
    copy_X=True, n_jobs=1)

参数
fit_intercept：是否计算截距。False-模型没有截距
normalize：当fit_intercept设置为False时，该参数将被忽略。如果为真，则回归前的回归系数X将通过减去平均值并除以l2-范数而归一化。
n_jobs：指定线程数

4.2 逻辑回归模型

from sklearn.linear_model import LogisticRegression
# 定义逻辑回归模型
model = LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, 
    fit_intercept=True, intercept_scaling=1, class_weight=None, 
    random_state=None, solver=’liblinear’, max_iter=100, multi_class=’ovr’, 
    verbose=0, warm_start=False, n_jobs=1)

penalty：使用指定正则化项（默认：l2）
dual: n_samples > n_features取False（默认）
C：正则化强度的反，值越小正则化强度越大
n_jobs: 指定线程数
random_state：随机数生成器
fit_intercept: 是否需要常量

4.3 决策树

from sklearn import tree 
model = tree.DecisionTreeClassifier(criterion=’gini’, max_depth=None, 
    min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, 
    max_features=None, random_state=None, max_leaf_nodes=None, 
    min_impurity_decrease=0.0, min_impurity_split=None,
     class_weight=None, presort=False)

criterion ：特征选择准则gini/entropy
max_depth：树的最大深度，None-尽量下分
min_samples_split：分裂内部节点，所需要的最小样本树
min_samples_leaf：叶子节点所需要的最小样本数
max_features: 寻找最优分割点时的最大特征数
max_leaf_nodes：优先增长到最大叶子节点数
min_impurity_decrease：如果这种分离导致杂质的减少大于或等于这个值，则节点将被拆分。

4.4 SVM

from sklearn.svm import SVC
model = SVC(C=1.0, kernel=’rbf’, gamma=’auto’)

C：误差项的惩罚参数C
gamma: 核相关系数。浮点数，If gamma is ‘auto’ then 1/n_features will be used instead.

4.5 BP

from sklearn.neural_network import MLPClassifier
# 定义多层感知机分类算法
model = MLPClassifier(activation='relu', solver='adam', alpha=0.0001)

hidden_layer_sizes: 元祖
activation：激活函数
solver ：优化算法{‘lbfgs’, ‘sgd’, ‘adam’}
alpha：L2惩罚(正则化项)参数。

4. 实例

使用sklearn 中的BP预测鸢尾花

###################使用sklearn 中的BP预测鸢尾花
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
#获取数据
iris=load_iris()
#print(iris)
X=iris.data
y=iris.target
###数据集拆分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# print((y_test))
##构建模型
model=MLPClassifier( learning_rate_init=0.0001, momentum=0.9)#改训练参数结果不同
#训练模型
model.fit(X_train,y_train)
#预测
y_pre=model.predict(X_test)

print(y_pre)
print(y_test)
# 获得这个模型的参数
model.get_params()
# 为模型进行打分
score=model.score(X_test, y_test) # 线性回归：R square； 分类问题： acc
print(score)

ref
https://blog.csdn.net/github_26672553/article/details/78779413?utm_source=blogkpcl13
https://www.cnblogs.com/lianyingteng/p/7811126.html
http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier

rrr2

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
sklearn使用方法

传统的机器学习任务从开始到建模的一般流程是：获取数据 -&gt; 数据预处理 -&gt; 训练建模 -&gt; 模型评估 -&gt; 预测，分类。1. 获取数据导入sklearn数据集from sklearn import datasetsiris = datasets.load_iris() # 导入数据集X = iris.data # 获得其特征向量y = iris.target...
复制链接

扫一扫

专栏目录