代码笔记
文章平均质量分 84
AI小白入门
公众号:StudyForAI
知乎:https://www.zhihu.com/people/yuquanle/columns
展开
-
sklearn之决策树实战
介绍决策树是用于分类和回归的非参数监督学习方法。 目标是创建一个模型,通过学习从数据特征推断的简单决策规则来预测目标变量的值。分类DecisionTreeClassifier是能够在数据集上执行多类分类的类。DecisionTreeClassifier将输入两个数组:数组X,大小为[n_samples,n_features],以及整数值的数组Y,大小[n_samples](类标签)。from skl原创 2017-08-08 09:54:51 · 2300 阅读 · 0 评论 -
数据预处理-sklearn实战
介绍sklearn.preprocessing包为用户提供了多个工具函数和类,用于将原始特征转换成更适于项目后期学习的特征表示。标准化、去均值、方差缩放数据集的标准化,对于大部分机器学习算法来说都是一种常规要求。如果单个特征没有接近于标准正态分布(零均值和单位方差的高斯分布),那么它可能并不能在项目中表现出很好的性能。例如, 许多学习算法中目标函数的基础都是假设所有的特征都是零...原创 2017-08-07 16:15:52 · 2254 阅读 · 0 评论 -
Stanford分词实战
介绍英文自带分词,而中文最小粒度由字组成,使用得分词。 Stanford分词开源工具主页地址:https://nlp.stanford.edu/software/segmenter.shtml原始文本的tokenization(标记化)是许多NLP任务的标准预处理步骤。 对于英文来说,标记化通常涉及标点符号分割和分离一些词缀。其他语言需要更广泛的tokenization预处理,通常称为分词。斯坦福原创 2017-09-20 19:08:24 · 6345 阅读 · 0 评论 -
Java抽取word里面文本
介绍现在 microsoft word 有好几个版本 97、2003、2007的,这三个版本存储数据的格式上都有相当大的差别,而现在 97 基本上已经退出市场。本文考虑后面二个版本,要求能够读取 word 中的文字内容,而忽略其中的文字样式、图片等信息。调研发现用 apache 的 POI 可以很好的实现。 读取2003版本(.doc)和2007(.docx)及其以后版本有很大的区别。POI主页地原创 2017-08-25 18:25:00 · 4877 阅读 · 0 评论 -
Gensim-TFIDF,LDA,LSI实战
介绍Gensim能很方便的分析文本,包括了TFIDF,LDA,LSA,DP等文本分析方法词典与词库首先将文本处理生成dictionary和corpus。 dictionary是词典,包含词以及词在词典中对应的位置。 corpus将文本存贮成(词在词典中位置,词频)这种形式,每个文本为一行。实战from gensim import corpora, models, similaritiesfro原创 2017-08-07 11:26:39 · 12861 阅读 · 3 评论 -
Gensim-from corpus to vector实战
介绍gensim能很方便的把文档转换成计算机能处理的形式,一般文档集合要先产生词典dictionary,词典就是包括文档集所有词的集合,每个词都在词典里有一个唯一的位置,就用位置来表示这个词。之后每一篇文档就能表示成(词id,词频)这种形式,用于后面的处理。实战from gensim import corporadocuments = ["Human machine interface for la原创 2017-08-07 10:59:11 · 1946 阅读 · 0 评论 -
Gensim-维基百科中文语料LDA,LSI实验记录
介绍本文描述了获取和处理维基百科中文语料过程,以及使用Gensim对语料进行主题建模处理的例子。准备语料库首先,从http://download.wikimedia.org/enwiki/下载所有维基百科文章语料库(需要文件enwiki-latest-pages-articles.xml.bz2或enwiki-YYYYMMDD-pages-articles.xml)。这个文件的大小约为1GB多,包原创 2017-08-13 21:00:11 · 4535 阅读 · 1 评论 -
Gensim-Similarity Queries
介绍下面一个例子说明如何在gensim中做到这一点。方法来自Indexing by Latent Semantic Analysis文章,例子来自gensim官网。代码from gensim import corpora, models, similaritiesdef GenDictandCorpus(): documents = ["Human machine interface fo原创 2017-08-12 09:50:57 · 2052 阅读 · 0 评论 -
numpy array 增加一列(行)
使用Python的numpy的array结构,如何给矩阵增加一行或者一列呢? 下面提供一种方法,当然numpy还提供了很多API函数可供选择。原创 2017-08-16 20:04:32 · 33360 阅读 · 0 评论 -
TF-IDF试用
记录一次生成文本tf-idf过程。tf-idf资料网上很多,这里就不介绍了。这里使用Python的sklearn封装的tf-idf,代码如下:# coding:utf-8import sysreload(sys)sys.setdefaultencoding('utf-8')__author__ = "yuquanle" #计算文本的tf-idf,一行为文本的向量from sklearn.featu...原创 2017-06-18 20:49:44 · 1874 阅读 · 1 评论