NLP
大浪中航行
这个作者很懒,什么都没留下…
展开
-
Distant Supervision——远程监督
定义:只要包含两个Entity的句子,都在描述同一种关系。 用途:主要用来为关系分类任务扩充数据集。 优点:能够很快速地为数据集打上标签 缺点:它假设只要包含两个Entity的句子,都在描述同一种关系,这个假设会产生很多地错误标签。可能这两个Entity这是与某个主题有关。 因此往往还需要用一些过滤的方法去筛选出对关系分类有用的句子,比如sentence-level Attention。...原创 2018-05-08 22:22:06 · 9887 阅读 · 0 评论 -
使用gensim+jieba生成Word Embeddings
在自然语言处理中,使用Word2Vec来生成Word Embeddings是非常常用的一种做法,而gensim这个库提供了生成W2V的接口。import osimport jiebafrom gensim.models import Word2Vec# 迭代器,使用jieba将句子进行分词class Sentences(object):# 这个类可以根据实际情况重写,我已经将所有的文...原创 2018-05-13 14:01:01 · 1616 阅读 · 0 评论 -
使用nltk + Stanford parser生成句法树
在自然语言处理中,句法树是比较有用的特征,特别是生成最短依赖路径SDP。首先我们要去官网下载jar包。有多种语言可选,也可以下载完整版。我们下好了之后,解压stanford-parser-full-2018-02-27.zip文件,我们需要其中的如下几个文件: stanford-parser-3.9.1-models.jarstanford-parser.jar解压stanford-...原创 2018-05-13 14:27:36 · 5603 阅读 · 6 评论