自然语言处理
文章平均质量分 69
chinwuforwork
博客原文在简书:吴祺育的笔记
展开
-
自然语言处理方法---TF-IDF
最近闲来无事,做了小小的项目,主要工作有:1、爬取历年政府工作报告2、统计词频,并计算TF-IDF值3、可视化输出,并分析结果PS:以上都是基于python实现,需要源码请联系(其实很简单。。)成果如图所示:其中,关于计算TF-IDF是自然语言处理(NLP)中比较常见的方法,今天来介绍一下此方法。概念 TF-IDF(ter原创 2016-06-06 20:03:40 · 4561 阅读 · 5 评论 -
从零学习word2vect到Tensorflow(一)
最近实习领导给安排了任务,由于业务需要,要求我学习word2vect和Tensorflow。基于此,将看到的好的博客,和学习心得分享给大家。一、word2vect基础原博地址:http://licstar.net/archives/3280. 词向量是什么 自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学原创 2016-09-08 11:26:27 · 7045 阅读 · 0 评论 -
上班之后完成的第一个项目
今天下午,终于在3月上班后,完成了第一个项目。项目的大致内容是,将wikipedia上的某个特定分类(n多个子分类)的所有内容抓取下来,放到gensim中的word2vector训练处模型。 再将不同的keywords的simword叠加起来,后面的similarity相加,取前topN个,生成一个重复的simword template。中间进行了很多种尝试,从公司的ES,到原创 2017-07-14 17:23:47 · 611 阅读 · 0 评论 -
短文本评分方法 (Short Text Scoring Method)
短文本评分方法 (Short Text Scoring Method)此方法是基于改进后的RAKE算法并结合word2vector,对短文本内容进行评分的一种方法。RAKE的改进原RAKE算法对划分后的短语打分机制存在一点问题,短语的长度对短语的得分影响大。也就是说,如果一个不重要的短语,但是它足够长,这个短语的分数就会高。这一点是存在较大问题的,针对这一点,对RAKE进行了以下改进。一个短语的原创 2017-10-13 17:39:00 · 3130 阅读 · 0 评论 -
word2vector的原理,结构,训练过程
之前用word2vector模型,上网找原理,出现各种CSDN上的解答。看了一下,都是copy某个人写的东西,而且什么CBOW,什么Skip-Gram,什么哈夫曼树,层次softmax,概念很多,绕都给绕晕了。看了很多遍,只知道个大概,具体还是没看懂。今天重新整理关于word2vector的原理。以一个好的脉络把这个模型理清楚。原型:NNLM(Neural Network Language ...原创 2018-12-14 17:45:54 · 2654 阅读 · 3 评论 -
博客迁移至简书
实在受不了CSDN的广告了,越来越垃圾。呼吁抵制CSDN。博客迁移至简书:https://www.jianshu.com/u/ed8ec5442f76欢迎大家交流!原创 2018-12-21 18:57:05 · 279 阅读 · 0 评论