NLP
_yuki_
一路打怪升级,直至见到大魔王
展开
-
NLP-朴素贝叶斯 (二)——语言分类器
理论后续会开补上,或自行学习------------------------------------------我们试试用朴素贝叶斯完成一个语种检测的分类器,说起来,用朴素贝叶斯完成这个任务,其实准确度还不错。机器学习的算法要取得好效果,离不开数据,咱们先拉点数据(twitter数据,包含English, French, German, Spanish, Italian 和 Dutch 6种语言)原创 2018-01-18 03:35:44 · 1860 阅读 · 0 评论 -
NLP snownlp 实际用例
SnowNLP是一个python写的类库,可以方便的处理中文文本内容。如中文分词、词性标注、情感分析、文本分类、提取文本关键词、文本相似度计算等。# -*- coding: utf-8 -*-from snownlp import SnowNLPs = SnowNLP('这个东西真心很赞')print('中文分词:')print(s.words) # [u'这个',原创 2018-01-26 04:49:48 · 5016 阅读 · 3 评论 -
NLP-jieba中文处理 (一)
jieba中文处理和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。1.基本分词函数与用法jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可...原创 2018-01-15 11:13:14 · 1446 阅读 · 0 评论 -
gensim Word2Vec 训练和使用
训练模型利用gensim.models.Word2Vec(sentences)建立词向量模型该构造函数执行了三个步骤:建立一个空的模型对象,遍历一次语料库建立词典,第二次遍历语料库建立神经网络模型。可以通过分别执行model=gensim.models.Word2Vec(),model.build_vocab(sentences),model.train(sentences原创 2018-01-26 11:44:30 · 60686 阅读 · 16 评论 -
gensim Word2Vec的参数说明
用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译,以便不时之需。class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5,min_count=5, max_vocab_size=None, sample=0原创 2018-01-26 03:44:26 · 3698 阅读 · 0 评论 -
gensim corpora 和 dictionary 使用 (一)
corpora是gensim中的一个基本概念,是文档集的表现形式,也是后续进一步处理的基础。lib:from gensim import corporafrom collections import defaultdict数据:documents = ["Human machine interface for lab abc computer applications"原创 2018-01-29 09:28:29 · 21167 阅读 · 3 评论