nlp
Tao-Tao-Tao
这个作者很懒,什么都没留下…
展开
-
NLP开源框架
NLP全系列处理框架 名称 包含模块和下载地址 开发语言 哈工大的Ltp 中文分词、词性标注、未登录词、句法分析、语义角色标注。网址: C++ Standford NLP 中文分词、词性标注、未登录词识别、句法分析等。网址: Java FudanNLP 中文分词、句法分析等。网址: Java HanLP 中文分词、句法分析等各类算法。网址:原创 2017-11-30 21:19:36 · 3909 阅读 · 0 评论 -
新词发现
挖掘新词的传统方法是,先对文本进行分词,然后猜测未能成功匹配的剩余片段就是新词。这似乎陷入了一个怪圈:分词的准确性本身就依赖于词库的完整性,如果词库中根本没有新词,我们又怎么能信任分词结果呢?此时,一种大胆的想法是,首先不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,不管它是新词还是旧词。然后,再把所有抽出来的词和已有词库进行比较,不就能找出新词了吗...转载 2018-02-26 22:47:31 · 3062 阅读 · 0 评论 -
pyltp文档
安装 pyltp注:由于新版本增加了新的第三方依赖如dynet等,不再支持 windows 下 python2 环境。使用 pip 安装使用 pip 安装前,请确保您已安装了 pip$ pip install pyltp接下来,需要下载 LTP 模型文件。下载地址 - 模型下载当前模型版本 - 3.4.0注意在windows下 3.4.0 版本的 语义角色标注模...转载 2018-02-28 23:07:15 · 1418 阅读 · 0 评论 -
中文分词工具ieba和pyltp功能对比
中文分词工具ieba和pyltp功能对比 功能 – jieba pyltp 分句 分句 √ 分词 全模式 √ 分词 精准模式 √ √ 分词 搜索引擎模式 √ 新词发现 新词发现 √ 自定义词典 词语 √ √ 自定义词典 词频 √...原创 2018-02-28 23:27:57 · 2119 阅读 · 1 评论 -
达观数据自然语言处理框架
达观数据自然语言处理框架转载 2018-03-24 22:21:37 · 712 阅读 · 0 评论