自然语言处理
胖胖的飞象
原飞奔的石头博主
展开
-
(二)文本嵌入式表示方法实战(词、句和段落向量:Word2Vec,GloVe,Paragraph2vec,FastText,DSSM)
《文本嵌入式表示方法实战》系列文章是基于2017年我于研一下半学期做的两场长时间的组会汇报ppt上形成的文章(学习和实验长达3个月,因为当时主要以上课为主,实验都是课余时间做的。。),由于当时我正处于入门阶段,理解和表述定有不当之处,还请各位同学老师批评指教。。。《文本嵌入式表示方法实战》系列文章全部链接如下:(一)文本嵌入式表示方法实战(词、句和段落向量:Word2Vec,GloVe,P...原创 2019-05-31 17:07:35 · 1915 阅读 · 0 评论 -
(一)文本嵌入式表示方法实战(词、句和段落向量:Word2Vec,GloVe,Paragraph2vec,FastText,DSSM)
《文本嵌入式表示方法实战》系列文章是基于2017年我于研一下半学期做的两场长时间的组会汇报ppt上形成的文章(学习和实验长达3个月,因为当时主要以上课为主,实验都是课余时间做的。。),由于当时我正处于入门阶段,理解和表述定有不当之处,还请各位同学老师批评指教。。。《文本嵌入式表示方法实战》系列文章全部链接如下:(一)文本嵌入式表示方法实战(词、句和段落向量:Word2Vec,GloVe,P...原创 2019-05-31 10:24:40 · 3214 阅读 · 0 评论 -
源码——“An Attention-Gated Convolutional Neural Network for Sentence Classification”
AGCNN_sentence_classificationDemo code (link: https://github.com/fabyangliu/AGCNN-Sentence-Classification) for the paperAn Attention-Gated Convolutional Neural Network for Sentence Classification(...原创 2019-05-21 14:36:35 · 557 阅读 · 2 评论 -
《中英文在自然语言处理上的十大差异点》学习总结
中英文在自然语言处理上的十大差异点——学习总结原文链接 →https://mp.weixin.qq.com/s/C7AF7ECj0bF5G1kDo3V72w自然语言是人与人交流沟通的重要媒介和方式,经历过漫长的历史发展,在世界各地形成了众多的语言分支。语言就像一个加过密的通讯系统一样,只有发送和接受两端有一致的加密规则,双方才能进行有效通讯。语言不通主要是因为不同类型的语言有不同表达...原创 2019-04-08 18:53:58 · 3408 阅读 · 0 评论 -
“基于门控卷积与层次注意力机制的多语义词向量计算方法”一文的源码
code-for-Multi-sense-Word-Embedding“基于门控卷积与层次注意力机制的多语义词向量计算方法”一文的源码,有源码,有真相。gthub链接地址:地址 使用本代码请注明引用: “柳杨, 吉立新, 黄瑞阳,等. 基于门控卷积机制与层次注意力机制的多语义词向量计算方法[J]. 中文信息学报, 2018(7).” ...抱歉临近毕业事情较多,代...原创 2018-11-27 17:25:39 · 1428 阅读 · 0 评论 -
如何对文本数据进行预处理?——结合常用处理方法谈谈自己的思考
常用的文本清洗与预处理步骤一般如下:一、去除数字:数字在文本分析中一般没有意义,所以在进一步分析前需要去除它们。【我觉得数字对于语义的理解还是有一定作用的,将所有数字(阿拉伯数字和单词)更换为一个标注<num>会不会更好?】二、去除链接地址:链接地址显然也需要在进一步分析前被去掉,可以使用正则表达式达到这个目的。 三、去除停用词:停用词是在每个句子中都很常见,但对分析没有意义的词。比如...原创 2018-03-12 10:43:46 · 15968 阅读 · 1 评论 -
Wikipedia中文文本数据获取
欢迎各位童鞋交流和指教!-----------------------------------------------------------------------------------最近因为要做中文语义关系分类,所以需要获取一些中文文本数据,wikipedia中文无疑是一个很好的选择。因为wiki自己平时隔一段时间就在dump的网页上更新文本数据,这个非常方便我们使用和下...原创 2018-01-23 21:59:02 · 8098 阅读 · 0 评论 -
GloVe背后的计算原理(进一步理解GloVe实现细节)
欢迎各位童鞋交流和指教!--------------------------------------------------------------------------------------原创 2017-11-11 21:24:38 · 4992 阅读 · 6 评论 -
国内大陆部分主要NLP团队
微软亚洲研究院自然语言计算组https://www.microsoft.com/en-us/research/group/natural-language-computing/清华大学自然语言处理与社会人文计算实验室http://nlp.csai.tsinghua.edu.cn/site2/清华大学智能技术与系统信息检索组http://www.thuir.cn/cms/...原创 2018-01-23 22:23:22 · 7698 阅读 · 2 评论 -
(三)文本嵌入式表示方法实战(词、句和段落向量:Word2Vec,GloVe,Paragraph2vec,FastText,DSSM)
《文本嵌入式表示方法实战》系列文章是基于2017年我于研一下半学期做的两场长时间的组会汇报ppt上形成的文章(学习和实验长达3个月,因为当时主要以上课为主,实验都是课余时间做的。。),由于当时我正处于入门阶段,理解和表述定有不当之处,还请各位同学老师批评指教。。。《文本嵌入式表示方法实战》系列文章全部链接如下:(一)文本嵌入式表示方法实战(词、句和段落向量:Word2Vec,GloVe,P...原创 2019-05-31 18:05:53 · 2530 阅读 · 0 评论 -
零基础入门自然语言处理的学习建议
在入门的阶段最适合做的事情:(1)阅读和学习自然语言处理(natural language processing,nlp)综述类文章和图书,对nlp有一个基本的认识,梳理nlp研究内容的演变,包括nlp从诞生到多次繁荣发展和多次停滞不前的原因,正确认识nlp与人工智能、机器学习、自然语言理解、计算语言学、文本挖掘等概念之间的区别与联系(除了我下面推荐的图书、文章和代码,一定要多百度和googl...原创 2019-06-01 14:31:53 · 1755 阅读 · 3 评论