![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 64
阿农安贵人
计算机软件从业中,现在传统IT企业工作。
展开
-
统计词频并可视化
最近参加一个NLP的竞赛,赛方提供了10万条数据。由于是脱敏数据,所以作NLP之前需要先作word2vec,这时就需要将标点符号和无意义的词(比如“的”)去掉,我们采用的方法就是去掉高频词,所以首先要找到高频词。 如何找到高频词呢, 这里当然可以使用dict了,但是有没有更高级一点的方法呢。 当然有了,我们可以使用collections的Counter,并且使用Pandas来替代读取数据的解析...原创 2018-07-21 22:49:45 · 3444 阅读 · 1 评论 -
词向量 - 实际动手使用word2vec
在自然语言处理的任务中,无论哪种算法都需要将文本形态的词转换成为向量形式的词向量(word embedding)。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等算法提供良好的数据样本,本文将详细介绍如何使用word2vec构建中文词向量 这里所需要用到的包,这些包需要首先使用pip或者conda安装 jiaba gensim sklearn ...原创 2018-07-31 15:41:21 · 2380 阅读 · 1 评论