scikit-learn
机器学习库scikit-learn用法
天泽28
计算机科学并不仅仅是关于计算机,就像天文学并不仅仅是关于望远镜。
展开
-
保存训练好的机器学习模型
保存训练好的机器学习模型 当我们训练好一个model后,下次如果还想用这个model,我们就需要把这个model保存下来,下次直接导入就好了,不然每次都跑一遍,训练时间短还好,要是一次跑好几天的那怕是要天荒地老了。。sklearn官网提供了两种保存model的方法:官网地址1.使用python自带的picklefrom sklearn.ensemble import Ra原创 2018-02-04 23:11:04 · 12356 阅读 · 8 评论 -
sklearn模型调优(判断是否过过拟合及选择参数)
sklearn模型调优(判断是否过过拟合及选择参数)这篇博客主要介绍两个方面的东西,其实就是两个函数:1. learning_curve():这个函数主要是用来判断(可视化)模型是否过拟合的,关于过拟合,就不多说了,具体可以看以前的博客:模型选择和改进 2. validation_curve():这个函数主要是用来查看在参数不同的取值下模型的性能 下面通过代码例子来看下这两个函数原创 2018-02-04 22:19:32 · 15929 阅读 · 4 评论 -
使用python的matplotlib(pyplot)画折线图和柱状图
使用python的matplotlib(pyplot)画折线图和柱状图 今天帮师兄赶在deadline之前画论文的图,现学现卖很是刺激,现把使用matplotlib的子库pyplot画折线图和柱状图的代码记录分享一下,方便大家参考,个人感觉pyplot真的蛮方便的,非常值得使用。 &nb...原创 2018-02-02 16:29:07 · 79250 阅读 · 3 评论 -
scikit-learn中离散特征二值化
scikit-learn中离散特征二值化最近在看西瓜书用scikit-learn中的CART去跑西瓜数据集,结果遇到麻烦了,西瓜数据集特征不光离散的,而且还是中文的。。(PS:其实我们的数据集中特征值常常是离散的类别,这个很正常),但在scikit-learn中不支持这种离散的类别特征作为输入,这点不得不说weka的人性化,直接输入原始数据集就可以了。。为了解决这个问题,就要用到独热编码(On原创 2017-05-11 16:46:33 · 6056 阅读 · 8 评论 -
scikit-learn中超参数搜索之网格搜索(GridSearchCV)
scikit-learn中超参数搜索之网格搜索(GridSearchCV)        为了能够让我们的模型取得更好的性能,往往有很多超参数需要调。sklearn中主要提供原创 2018-11-30 23:11:22 · 14055 阅读 · 5 评论 -
文本预处理:词袋模型(bag of words,BOW)、TF-IDF
文本预处理:词袋模型(bag of words,BOW)、TF-IDF这篇博客主要整理介绍文本预处理中的词袋模型(bag of words,BOW)和TF-IDF。一、词袋模型(bag of words,BOW)词袋模型能够把一个句子转化为向量表示,是比较简单直白的一种方法,它不考虑句子中单词的顺序,只考虑词表(vocabulary)中单词在这个句子中的出现次数。下面直接来看一个例子吧(例...原创 2018-12-03 14:58:32 · 26674 阅读 · 2 评论 -
scikit-learn之kmeans应用及问题
scikit-learn之kmeans应用及问题    最近在实习的时候用到了kmeans做个聚类,采用了sklearn框架,平时在学校数据集规模一般都比较小,搬搬砖一切都ok,但是在工业界碰到大数据量的时候(还没有到用hdfs存的地步,数据集大约10G的样子,370w左右的样本,每个样本维度200),就没有原创 2019-01-20 01:08:58 · 5677 阅读 · 1 评论