【SciKit-Learn学习笔记】8:k-均值算法做文本聚类,聚类算法性能评估

学习《scikit-learn机器学习》时的一些实践。 原理见K-means和K-means++的算法原理及sklearn库中参数解释、选择。 sklearn中的KMeans from sklearn.datasets import make_blobs from matplotlib impo...

2018-11-30 19:21:39

阅读数 121

评论数 0

【SciKit-Learn学习笔记】7:PCA结合SVM做AT&T数据集人物图像分类

学习《scikit-learn机器学习》时的一些实践。 原理见PCA及绘制降维与恢复示意图。 sklearn的PCA sklearn中包装的PCA也是不带有归一化和缩放等预处理操作的,可以用MinMaxScaler()实现并装在Pipeline里封装起来。 from sklearn.d...

2018-11-30 12:34:25

阅读数 145

评论数 1

【SciKit-Learn学习笔记】6:朴素贝叶斯做文档分类并绘制混淆矩阵

学习《scikit-learn机器学习》时的一些实践。 条件独立 朴素即指的是条件独立假设,假设n个特征之间不相关,则可据联合概率的条件展开式: p(Ck)P(x∣Ck)=P(Ck,x)=P(x1,x2,..,xn,Ck)=P(x1∣x2,..,xn,Ck)P(x2,..,xn,Ck)=...

2018-11-28 19:42:51

阅读数 290

评论数 0

【SciKit-Learn学习笔记】5:核SVM分类和预测乳腺癌数据集

学习《scikit-learn机器学习》时的一些实践。 常用参数 参数C SVM分类器svm.SVC()中的参数C即SVM所优化的目标函数 argmin(∣∣w∣∣2+R∑i=1mεi)argmin \left( ||\pmb{w}||^2+R \sum_{i=1}^m \vareps...

2018-11-28 14:29:27

阅读数 482

评论数 4

【SciKit-Learn学习笔记】4:决策树拟合泰坦尼克号数据集并提交到Kaggle

学习《scikit-learn机器学习》时的一些实践。 决策树拟合泰坦尼克号数据集 这里用绘制参数-score曲线的方式去直观看出模型参数对模型得分的影响,作者使用了GridSearchCV来自动做k-fold交叉验证,并且能在多组模型参数中找到最优的一组和最优值(用平均score来评估)...

2018-11-22 16:37:32

阅读数 325

评论数 0

【SciKit-Learn学习笔记】3:线性回归测算波士顿房价,Logistic回归预测乳腺癌

学习《scikit-learn机器学习》时的一些实践。 线性回归 这部分和第一篇笔记"绘制随机波动样本的学习曲线 "部分基本类似。线性回归里可以加入多项式特征,以对模型做增强。 线性回归增加多项式特征,拟合sin函数 import n...

2018-11-20 21:28:32

阅读数 400

评论数 0

【SciKit-Learn学习笔记】2:kNN分类/回归,在糖尿病数据集上的表现

学习《scikit-learn机器学习》时的一些实践。 kNN分类 在三个点周围生成聚类样本,然后做的kNN分类。 这种把标准差取得好(不要太小),得到的就不一定是线性可分的数据了。比如图上右侧有个玫红点和蓝点交错。 from sklearn.datasets.samples_gene...

2018-11-20 15:25:45

阅读数 627

评论数 0

【SciKit-Learn学习笔记】1:SVM预测digits数据集,绘制随机波动样本的学习曲线

学习《scikit-learn机器学习》时的一些实践。 SVM预测digits数据集 sklearn里的各种模型对象统一了接口,fit()做训练,predit()做预测,用score()获得对模型测试结果的打分。 这里的打分不是acc,应该是决定系数。 查看数据形式 from skl...

2018-11-18 19:41:48

阅读数 231

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭