NLP
Tommey_Chang
我是一个闲云野鹤.....
展开
-
python jieba 分词自定义字典
python中结巴分词的准确性比较高,网上有详细的教程,包括自字义字典的使用方法。最近在做实验室的一个小项目,其中有很多实体名不规则,需要使用自定义的字典,按照网上某些教程的方法,建立了自定义字典,该方法说只有词性是可选的,我就设置了词频,发现不管是提高还是降低数值,自己希望的自定义词仍然没有出现。后面上Git看了作者发的东西,说词频也是可选的,然后就试着把词频也去掉了,自已定义的词就出现了。原创 2016-04-18 10:41:59 · 17221 阅读 · 12 评论 -
统计自然语言学习笔记(Manning):第1章
人们总在创造新的语法规则,因而基于规则的方法来处理自然语言的并不能适用。因此我们不是通过规则来判断句子是不是合乎语法,而是解决:语言使用中通常出现的是什么形式。用来识别这些模式的主要工具是计数,就是统计方法。1.1 理性主义和经验主义一、两种学派的基本观点Chomsky提出的语言本能的观点:认为孩子们在幼年的时候听到的语言是一个有限的输入,要观察他们怎样从这个有限的输入中学到自原创 2016-04-19 10:07:10 · 1155 阅读 · 0 评论 -
GloVe使用心得
GloVe是斯坦福大学提出的一种新的词矩阵生成的方法,综合运用词的全局统计信息和局部统计信息来生成语言模型和词的向量化表示。官方主页:http://nlp.stanford.edu/projects/glove/,本文将作者发表的文章和代码打包一并上传,供大家下载学习。原创 2016-04-19 16:37:47 · 10623 阅读 · 2 评论 -
ubuntu 安装使用 Keras 手扎
由于要使用深度学习的方法来处理文本和图像,准备在python下使用theano进行加速,按照keras的官方教程一步步安装,各种测试都通过。环境是ubuntu 16.04 + cuda8.0 + theano +keras,显卡是gtx970。问题来了:在跑大数据量的时候,电脑无限重启,换了显卡不能解决问题。一个偶然的机会,在没有安装cudnn的情况下,试跑了一下,程序是OK的原创 2016-11-22 14:55:56 · 668 阅读 · 0 评论