![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Scikit_learn
文章平均质量分 66
象牙塔小明
机器学习
Python/Tensorflow/Spark/Scala
展开
-
preprocessing.LabelBinarizer()返回的结果不是one-hot怎么解决?
sklearn原创 2022-09-15 14:25:27 · 257 阅读 · 2 评论 -
sklearn与机器学习系列专题之降维(二)一文弄懂LDA特征筛选&降维
目录1.PCA算法优缺点2.LDA算法简介3.枯燥又简洁的理论推导4.python实战LDA5.下篇预告1.PCA算法优缺点在上一篇推文中,我们详解了PCA算法。这是机器学习中最为常用的降维方法,能降低算法的计算开销,使得数据集更容易处理,且完全无参数的限制。但是,如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却很难按照预想的方法对处理过程进行干预,可能达不到预期的效果,在非高斯分布的情况下,PCA方法得出的主元可能也并不是最优的。2.LDA算法简介这时候,就要线性判别分析降维(Line转载 2020-11-14 23:05:31 · 911 阅读 · 0 评论 -
sklearn与机器学习系列专题之降维(一)一文弄懂PCA特征筛选&降维
伴随着通信与互联网技术的不断发展,人们收集和获取数据的能力越来越强,而这些数据已呈现出维数高、规模大和结构复杂等特点,当数据量非常大时,会面临维度灾难,即:1.在高维情况下,数据样本稀疏;2.涉及距离、内积的计算变得困难。缓解灾难的一个重要途径就是降维。本篇博客主要以PCA为例,讲解sklearn实现降维。1.标准PCA如下图所示,我们用两个特征——一个是attack、一个是defense来描述样本。作两条垂直的参考线,方差相差很大。在方差较大的方向上,所包含的信息就较多。降维要尽可能保持原始数据的转载 2020-11-14 22:32:14 · 629 阅读 · 0 评论 -
sklearn中train_test_split的用法
train_test_split的用法注意:旧版本的导入该模块是:from sklearn.cross_validation import train_test_split新版本改成了:from sklearn.model_selection import train_test_split作用:train_test_split函数用于将矩阵随机划分为训练子集和测试子集,并返回划分好的训练集测试集样本和训练集测试集标签。格式:X_train, X_test, y_train, y_test =cr原创 2020-10-18 23:59:44 · 2008 阅读 · 6 评论 -
封装Sklearn中roc_curve函数画ROC曲线并使用roc_auc_score函数计算AUC
画ROC曲线封装函数# 画ROC曲线函数def plot_roc_curve(y_true, y_score): """ y_true:真实值 y_score:预测概率。注意:不要传入预测label!!! """ from sklearn.metrics import roc_curve import matplotlib.pyplot as plt fpr,tpr,threshold = roc_curve(y_true, y_score, po原创 2020-10-18 23:43:43 · 4099 阅读 · 6 评论 -
Sklearn遇到的一些bug记录
例如:如下案例有两个错误from sklearn.datasets import load_bostonfrom sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection import chi2X_boston, y_boston = load_boston(return_X_y=True)K_...原创 2019-12-09 21:51:37 · 1170 阅读 · 0 评论 -
机器学习sklearn数据预处理:归一化-标准化/区间缩放-调整尺度/正态化
在sklean的预处理方法中主要有三种,每一种都有函数方法和类方法两种使用方法:归一化-标准化:normalize()函数/Normalizer()类区间缩放-调整尺度: minmax_scale函数/MinMaxScaler()类正态化:scale()函数/StandardScaler()类归一化/标准化处理将每一行数据的向量模长(欧氏距离)处理成1.方法一:normalize()...原创 2019-12-03 16:06:57 · 2335 阅读 · 0 评论 -
scikit-learn实现决策树并用graphviz/pydotplus实现可视化
1. 用anaconda安装pydotplus要说一下的是在python3.5以前用pydot。python3.5及以后pydot已经停止开发了,要用pydotplus.此博客用的python3.7版本。在anaconda中安装pydotplus可能安装不上:如图所示,没办法点击安装,这时候打开terminal:输入pip install pydotplus 和 pip instal...原创 2019-11-25 11:45:35 · 1561 阅读 · 2 评论 -
<1>Scikit-Learn(sklearn)中的KNeighborsClassifier对鸢尾花进行分类
案例from sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifieriris = datasets.load_iris() # 鸢尾花数据集iris_X = iris.data # 特征...原创 2018-12-02 21:18:03 · 2821 阅读 · 0 评论 -
<2>Scikit-Learn(sklearn)中的LinearRegression(线性回归)对波士顿房价进行预测
线性回归y=wx+bfrom sklearn import datasetsfrom sklearn.linear_model import LinearRegressionloaded_data = datasets.load_boston()data_X = loaded_data.datadata_y = loaded_data.targetmodel = LinearRegr...原创 2018-12-04 17:45:51 · 2471 阅读 · 0 评论