文本
scarlette47
这个作者很懒,什么都没留下…
展开
-
nlp阅读理解比赛经验贴
(一)比赛类型 多篇章阅读理解 篇章长度长 问题有多跳类型 没有yes no类型 (一)数据预处理 1、blue、rouge、f1、tfidf、bm25进行相似度度量 2、采用前1000字、与问题最相似的几句话的策略,效果都不好,只能达到76%的覆盖率 3、用相似度进行排序,将1-3个句子的前一句后两句,4-6个句子前一句后一句,7-10个句子本身,覆盖率提升到95%,平均长度1600,后期优化到...原创 2019-10-21 15:12:21 · 1614 阅读 · 2 评论 -
文本处理之中的关系抽取论文阅读
好久没有写东西了~~感觉都跟时代脱节了~~幸亏有师兄师弟拉扯。 今天看了实体关系抽取的论文,简单记录一下 (1) 论文名称:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification 作者信息:中科大自动化所 Zhou 模型名称:Att+BLSTM 论原创 2018-01-17 09:38:59 · 2263 阅读 · 0 评论 -
python nlp开源工具包摸索(1)TextBlob
1、translate TextBlobs can be translated between languages. >>> en_blob = TextBlob(u'Simple is better than complex.') >>> en_blob.translate(to='es') TextBlob("Simple es mejor que co...原创 2018-09-28 10:03:32 · 594 阅读 · 0 评论 -
python nlp开源工具包摸索(2)pattern
1、安装 pip install pattern 2、功能特点 爬虫+自然语言处理+图谱(如果没理解错的话) 3、自然语言处理 包括六种语言en | es | de | fr | it | nl 具体关注英语 (1)Parser TAG CHUNK(组块分析) ROLE(角色标注) POS(词性标注) (2)文本分类 (polarity, subjectivity) fa...原创 2018-09-28 10:23:44 · 457 阅读 · 0 评论 -
python nlp开源工具包摸索(3)gensim
1、tfidf 2、Summarization 特点是主题模型,lda什么的宝宝也不懂啊,第一反应就是又来降维也是醉了~~心疼地抱住我寄几~~原创 2018-09-28 10:50:42 · 338 阅读 · 0 评论 -
python nlp开源工具包摸索(4)PyNLPl
github:https://github.com/proycon/pynlpl 文档:https://pynlpl.readthedocs.io/en/latest/textprocessors.html 主要是解析各种nlp数据结构 具体nlp功能api接口貌似只有textprocess模块实现的简单的tokenisation和ngram-extraction,没什么用...原创 2018-09-28 11:05:53 · 377 阅读 · 0 评论 -
python nlp开源工具包摸索(5)spacy
github:https://github.com/explosion/spaCy 主页:https://spacy.io/ 1、nlp能力 https://spacy.io/usage/linguistic-features#section-named-entities POS Tagging Dependency Parse Named Entities Tokenization ...原创 2018-09-28 11:32:05 · 419 阅读 · 0 评论