![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
_朝闻道_
心不唤物,物不至
展开
-
Huffman树
Huffman是最优二叉树,其带权路径长度最小Huffman编码能够解决不等长编码的唯一性问题若规定向左为0,向右为1那么A编码为0,B为10,C为110,D为111https://www.jianshu.com/p/5ad3e97d54a3...原创 2018-12-02 15:53:24 · 225 阅读 · 0 评论 -
TensorFlow:Word2Vec
Word2Vec记得之前接触NLP是用朴素贝叶斯分类器来判断语句是否文明。用的独热编码,但是当词库巨大时,会变得很稀疏,而且词和词的关联完全看不出来,因此引入词汇分布式表示。将vector每一个元素由整形改为浮点型,变为整个实数范围的表示;将原来稀疏的巨大维度压缩嵌入到一个更小维度的空间;Word2Vec是用来进行词嵌入的模型。有两种训练模式:CBOW (Continuous Ba...原创 2018-10-04 16:35:36 · 207 阅读 · 0 评论 -
NLP实战:朴素贝叶斯分类器
需要将语句分割,然后以向量形式表示。朴素贝叶斯有三类高斯模型多项式模型伯努利模型高斯模型用于处理特征值为连续的情况,多项式用于离散特征(一般用于文本分类)。在sklearn中将语句转为向量有两种方式词袋模型(词的频数)和TF-IDF特征向量import jiebafrom sklearn.feature_extraction.text import CountVectoriz...原创 2018-12-04 22:58:51 · 327 阅读 · 0 评论 -
gensim
一、构建词典一般构建词典会把低频词过滤掉,可以使用defaultdict对词频进行统计,在分词时过滤掉停用词和低频词。from gensim import corporafrom gensim import corporadocuments = ["Human machine interface for lab abc computer applications", ...原创 2018-12-13 22:01:34 · 682 阅读 · 0 评论 -
gensim:word2vec实战
一、语料处理import jiebajieba.suggest_freq('沙瑞金', True)# 避免分割特殊词...with open("./in_the_name_of_people.txt", encoding="utf-8") as file: doc = file.read() doc_cut = jieba.cut(doc) res = " "...原创 2019-01-25 22:13:23 · 933 阅读 · 0 评论