Scikit Learn
文章平均质量分 66
panghaomingme
这个作者很懒,什么都没留下…
展开
-
Scikit Learn简介
一般来说,机器学习问题可以这样来理解:我们有n个 样本 (sample)的数据集,想要预测未知数据的属性。如果描述每个样本的数字不只一个,比如一个多维的条目(也叫做 多变量数据 (multivariate data)),那么这个样本就有多个属性或者 特征 。我们可以将机器学习问题分为两大类——监督学习(supervise learning)和无监督学习(unsupervise原创 2016-11-09 09:59:55 · 610 阅读 · 0 评论 -
TfidfVectorizer和TfidfTransformer
vectorizer=CountVectorizer()transformer=TfidfTransformer()tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))等价于:transformer=TfidfVectorizer()tfidf2=transformer.fit_transform(c原创 2017-06-23 12:40:40 · 3288 阅读 · 0 评论 -
sklearn ElasticNet
ElasticNet(弹性网络)ElasticNet 是一种使用L1和L2先验作为正则化矩阵的线性回归模型。就是同时使用L1正则和L2正则作用于线性模型。公式:从公式可以看出也是叠加了L1和L2正则,然后具有不同的参数原创 2017-02-24 09:40:56 · 1463 阅读 · 0 评论 -
sklearn.preprocessing.PolynomialFeatures类的使用
在之前的代码中多次出现了使用sklearn.pipeline.Pipeline和sklearn.preprocessing.PolynomialFeatures这两个类。我在找相关资料的时候发现很少有写这方面的文章和博客。除了官网的英文文档,其实这个文档写的非常好。但考虑到自己的英文水平有限,于是想写点什么来记录这两个类。1、sklearn.preprocessing.PolynomialFe原创 2017-02-23 17:42:10 · 794 阅读 · 0 评论 -
sklearn——朴素贝叶斯文本分类6
使用了countVectorizer和TfidfVectorizer两个统计统计模型,来比较使用哪个模型效果更好(其实都知道tfidf比较好,数学之美中比较好讲解),我们将通过图像可以看出两个统计模型的效果,并且使用了交叉验证#使用交叉验证from sklearn.datasets import fetch_20newsgroupsfrom sklearn.cross_validation i原创 2017-02-21 16:48:56 · 1402 阅读 · 0 评论 -
sklearn——朴素贝叶斯文本分类5
在这次的贝叶斯试验中,用到了交叉验证,就是假如把数据集分成10份,每次取其中的一份作为test数据,会得到10个测试的准确率,我们可以求10份的平均值,作为这一次的准确率。当我们求出测试集的矩阵大小为(18846, 173452),我们可以看出17万个词,其实在选择特征时用不了这么多,接下来我们看一下选择特征维数为多少时没会出现好的结果。代码:from sklearn.datasets i原创 2017-02-17 17:18:27 · 1742 阅读 · 0 评论 -
sklearn——朴素贝叶斯文本分类4
把数据去掉'headers', 'footers', 'quotes',准确率反而降低了from sklearn.datasets import fetch_20newsgroupsnews=fetch_20newsgroups(subset='all',remove=('headers', 'footers', 'quotes'))from sklearn.cross_validatio原创 2017-02-17 15:08:33 · 792 阅读 · 0 评论 -
sklearn——朴素贝叶斯文本分类3
在分类前对文本进行预处理,去除停用词代码:# -*- coding: utf-8 -*-"""Created on Sat Jan 14 21:03:17 2017@author: 54376"""# 从sklearn.datasets里导入20类新闻文本数据抓取器。from sklearn.datasets import fetch_20newsgroups# 从互联网上即原创 2017-01-14 21:11:36 · 2039 阅读 · 0 评论 -
sklearn——朴素贝叶斯分文本分类2
使用sklearn中的tf-idf向量选择器对向量进行选择,是一个特征选择的过程代码:# 从sklearn.feature_extraction.text里分别导入TfidfVectorizer。from sklearn.feature_extraction.text import TfidfVectorizer# 采用默认的配置对TfidfVectorizer进行初始化(默认配置不去除英原创 2017-01-14 21:02:53 · 1805 阅读 · 0 评论 -
sklearn——朴素贝叶斯文本分类
在不去除停用词的情况下用朴素贝进行文本分类# 从sklearn.datasets里导入20类新闻文本数据抓取器。from sklearn.datasets import fetch_20newsgroups# 从互联网上即时下载新闻样本,subset='all'参数代表下载全部近2万条文本存储在变量news中。news = fetch_20newsgroups(subset='all')原创 2017-01-14 18:23:10 · 4753 阅读 · 0 评论 -
Anaconda更新库
1. 如何查看已安装的库打开 Anaconda Command Prompt ,在命令提示符窗口中输入以下命令:pip list# 或者conda list其中,pip list 只能查看库,而 conda list 则可以查看库以及库的版本2. 如何安装或更新库以安装 更新 scipy 为例pip install scipypip install s原创 2017-01-14 13:50:00 · 2764 阅读 · 0 评论 -
scikit learning——交叉验证
import numpy as npfrom sklearn import datasetsfrom sklearn.cross_validation import train_test_splitfrom sklearn.neighbors import KNeighborsClassifieriris = datasets.load_iris()iris_X =iris.datai原创 2016-11-09 16:52:50 · 513 阅读 · 0 评论 -
scikit learn标准化数据
from sklearn import preprocessingimport numpy as npa=np.array([[10,2.7,3.6], [-100,5,-2], [120,20,40]],dtype=np.float64)print(a)print(preprocessing.scale(a))#正则化数据运行结果,正则前和正则原创 2016-11-09 15:38:32 · 588 阅读 · 0 评论 -
scikit learn——模型属性和功能
from sklearn import datasetsfrom sklearn import linear_modelimport matplotlib.pyplot as plt#==============================================================================# 用线性回归做导入数据的小例子#======原创 2016-11-09 14:28:34 · 319 阅读 · 0 评论 -
scikit learn导入datasets和新建datasets
from sklearn import datasetsfrom sklearn import linear_modelimport matplotlib.pyplot as plt#==============================================================================# 用线性回归做导入数据的小例子#======原创 2016-11-09 13:54:25 · 1869 阅读 · 0 评论 -
window下spyder的快捷键
块注释/块反注释 Ctrl + 4/5 断点设置 F12 关闭所有 Ctrl + Shift + W 代码完成 Ctrl +空格键 条件断点 SHIFT + F12 配置 F6 复制 Ctrl + C 向下复制 Ctrl + Alt +向下 剪切 Ctrl + X 调试 Ctrl + F5键 删除 Del 向上复制 Ctrl + Alt +向上 粘贴原创 2016-11-09 13:28:38 · 3497 阅读 · 0 评论 -
sklearn的快速使用
传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。1. 获取数据1.1 导入sklearn数据集 sklearn中包含了大量的优质的数据集,在你学习机器学习原创 2017-12-27 15:42:56 · 1009 阅读 · 0 评论