SciKit-Learn
SciKit-Learn学习笔记。
大桔骑士v
微软程序员,B站账号:大桔骑士v
展开
-
【SciKit-Learn学习笔记】9:常用的特征编码手段
在Kaggle上看到了一个专门训练特征编码的竞赛,其中一个Kernel讲了常用的几种特征编码的手段,基于这篇教程做了些扩展学习。用于数据分析的特征可能有多种形式,需要将其合理转化成模型能够处理的形式,特别是对非数值的特征,特征编码就是在做这样的工作。常见特征种类二值数据:只有两种取值的变量(不一定是0/1,但是可以映射到{0,1}\{0,1\}{0,1}上)类别数据:多类的数据,如星期一...原创 2019-10-05 00:49:53 · 6592 阅读 · 2 评论 -
【SciKit-Learn学习笔记】8:k-均值算法做文本聚类,聚类算法性能评估
学习《scikit-learn机器学习》时的一些实践。原理见K-means和K-means++的算法原理及sklearn库中参数解释、选择。sklearn中的KMeansfrom sklearn.datasets import make_blobsfrom matplotlib import pyplot as pltfrom sklearn.cluster import KMeans...原创 2018-11-30 19:21:39 · 921 阅读 · 0 评论 -
【SciKit-Learn学习笔记】7:PCA结合SVM做AT&T数据集人物图像分类
学习《scikit-learn机器学习》时的一些实践。原理见PCA及绘制降维与恢复示意图。sklearn的PCAsklearn中包装的PCA也是不带有归一化和缩放等预处理操作的,可以用MinMaxScaler()实现并装在Pipeline里封装起来。from sklearn.decomposition import PCAfrom sklearn.pipeline import Pip...原创 2018-11-30 12:34:25 · 1476 阅读 · 1 评论 -
【SciKit-Learn学习笔记】6:朴素贝叶斯做文档分类并绘制混淆矩阵
学习《scikit-learn机器学习》时的一些实践。条件独立朴素即指的是条件独立假设,假设n个特征之间不相关,则可据联合概率的条件展开式:p(Ck)P(x∣Ck)=P(Ck,x)=P(x1,x2,..,xn,Ck)=P(x1∣x2,..,xn,Ck)P(x2,..,xn,Ck)=P(x1∣x2,..,xn,Ck)P(x2∣x3,..,xn,Ck)P(x3,..,xn,Ck)......=...原创 2018-11-28 19:42:51 · 2164 阅读 · 1 评论 -
【SciKit-Learn学习笔记】5:核SVM分类和预测乳腺癌数据集
学习《scikit-learn机器学习》时的一些实践。常用参数参数CSVM分类器svm.SVC()中的参数C即SVM所优化的目标函数argmin(∣∣w∣∣2+R∑i=1mεi)argmin \left( ||\pmb{w}||^2+R \sum_{i=1}^m \varepsilon_i \right)argmin(∣∣www∣∣2+Ri=1∑mεi)中,松弛系数ε\vareps...原创 2018-11-28 14:29:27 · 4214 阅读 · 7 评论 -
【SciKit-Learn学习笔记】4:决策树拟合泰坦尼克号数据集并提交到Kaggle
学习《scikit-learn机器学习》时的一些实践。决策树拟合泰坦尼克号数据集这里用绘制参数-score曲线的方式去直观看出模型参数对模型得分的影响,作者使用了GridSearchCV来自动做k-fold交叉验证,并且能在多组模型参数中找到最优的一组和最优值(用平均score来评估)。这种方式可以避免一次随机划分造成的不确定性太大,得到的曲线很不稳定。import pandas as ...原创 2018-11-22 16:37:32 · 1443 阅读 · 1 评论 -
【SciKit-Learn学习笔记】3:线性回归测算波士顿房价,Logistic回归预测乳腺癌
学习《scikit-learn机器学习》时的一些实践。线性回归这部分和第一篇笔记"绘制随机波动样本的学习曲线 "部分基本类似。线性回归里可以加入多项式特征,以对模型做增强。线性回归增加多项式特征,拟合sin函数import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import Linear...原创 2018-11-20 21:28:32 · 2850 阅读 · 1 评论 -
【SciKit-Learn学习笔记】2:kNN分类/回归,在糖尿病数据集上的表现
学习《scikit-learn机器学习》时的一些实践。kNN分类在三个点周围生成聚类样本,然后做的kNN分类。这种把标准差取得好(不要太小),得到的就不一定是线性可分的数据了。比如图上右侧有个玫红点和蓝点交错。from sklearn.datasets.samples_generator import make_blobs # 用于生成聚类样本from matplotlib impo...原创 2018-11-20 15:25:45 · 4739 阅读 · 2 评论 -
【SciKit-Learn学习笔记】1:SVM预测digits数据集,绘制随机波动样本的学习曲线
学习《scikit-learn机器学习》时的一些实践。SVM预测digits数据集sklearn里的各种模型对象统一了接口,fit()做训练,predit()做预测,用score()获得对模型测试结果的打分。这里的打分不是acc,应该是决定系数。查看数据形式from sklearn import datasetsfrom matplotlib import pyplot as plt...原创 2018-11-18 19:41:48 · 2371 阅读 · 0 评论