NLP
令狐公子
开朗活泼自信进取
展开
-
NLP—TextRank算法获取文本关键词和摘要
https://blog.csdn.net/kamendula/article/details/51756552 Text Rank算法 抽取关键词和摘要https://blog.csdn.net/kamendula/article/details/51756396 https://blog.csdn.net/pure2007/article/details/6607022 ...原创 2018-05-20 22:37:46 · 11847 阅读 · 3 评论 -
NLP—词频特征向量
词向量、TF-IDF值词向量都没有考虑单词的上下文关系,而仅仅考虑词的权重,即单词出现的频率。虽然丢失了一部分语义信息,但是在面临聚类、分类等问题时,这种词向量方法表现也不错。下面代码例子中,首先利用docs中出现的单词构建字典,然后把每句话转化为词向量形式。有些单词"I"、"is"属于停用词,不参加词频统计。同时词向量中包含大量0值,所以我们的矩阵通常是十分稀疏的。当词向量特征矩阵十分巨大时可以...原创 2018-05-20 22:33:27 · 4818 阅读 · 0 评论 -
NLP—word2vec词向量简介
NLP处理的数据都是文字,而文字是无法直接被计算机计算的,于是人们想出了使用独热编码的方式来表示单词。浙江 [0,0,0,0,0,0,0,1,0,......0,0,0,0,0,0,0]江苏 [0,0,0,0,1,0,0,0,0,......0,0,0,0,0,0,0]安徽 [0,0,0,1,0,0,0,0,0,......0,0,0,0,0,0,0]天津 [0,0,0,0,0,0,0,0,...原创 2018-05-20 22:35:47 · 5487 阅读 · 2 评论 -
NLP—文本相似度算法BM25
BM25算法,通常用来做检索相关性评分。首先对一个查询Query进行分词得qi,对每个搜索结果文档d,计算qi与文档d的相关性得分。最后将所有的qi进行加权求和,从而得到查询Query与文档d的相关性得分。公式中,Q表示查询Query,qi表示查询被解析得到的分词qi,d表示搜索结果文档d,Wi表示分词qi的权重,R(qi,d)表示分词qi与文档d的相关性得分。定义一个词与文档相关性的权重方法有很...原创 2018-05-20 22:39:41 · 3434 阅读 · 0 评论 -
Dask-大规模数据存储与读取、并行计算
在进行大规模的数据分析时,本机的内存往往不够,同时又不想使用spark等大数据工具的话,Dask是一个不错的替代选择。而且它的api使用跟pandas很相似,对于从pandas数据分析过渡来的使用起来非常方便。下面我们基于亚马逊用户音乐评论数据,使用Dask读取操作数据,画用户评论词云。#-------Dask解决方案-------#import dask.bag as dbimport uj...原创 2018-07-02 16:19:42 · 15030 阅读 · 0 评论