自然语言处理
Quincy1994
这个作者很懒,什么都没留下…
展开
-
关于潜在语义索引模型
LSI(潜在语义索引模型)定义:LSI,英文:Latent Semantic Indexing的缩写,中文意译是潜在语义索引,指的是通过海量文献找出词汇之间的关系。当两个词或一组词大量出现在一个文档中时,这些词之间就可以被认为是语义相关的。来源历史:潜在语义分析(Latent Semantic Analysis)或者潜在语义索引(Latent Semantic Index),是1988年S.T. D原创 2015-12-01 19:52:54 · 4094 阅读 · 0 评论 -
关于Fake News Detection的近几年文献列表
前言最近小组内一个师妹的毕业课题是做关于虚假新闻(Fake News Detection)的检测,正好我愁着自己的课程作业要做什么方面的综述,于是灵机一动,就将两个事情拉在一起吧,哈哈。后来借着师妹的手收集了近年来关于虚假新闻的文献(不一定全,请见谅哈),具体如下:AAAIDRIMUX: Dynamic Rumor Influence Minimization with User Exper...原创 2019-02-10 21:30:34 · 3120 阅读 · 2 评论 -
莱文斯坦距离计算字符串的相似度
基本理论莱文斯坦距离(LD)用于衡量两个字符串之间的相似度。 以下我们称这两个字符串分别为 s (原字符串) 和 t (目标字符串)。莱文斯坦距离被定义为”将字符串 s 变换为字符串 t 所需的删除、插入、替换操作的次数”算法原理该算法的解决是基于动态规划的思想,具体如下: 设 s 的长度为 n,t 的长度为 m。如果 n = 0,则返回 m 并退出;如果 m=0,则返回 n 并退出。否则构建一个原创 2016-05-21 16:37:02 · 4038 阅读 · 0 评论 -
基于知识图谱的电影自动问答系统(二)自动问答实现
自动问答的流程 我们的自动问答主要流程按问题的抽象与分类、问题的扩展与抽取、答案的生成展开。问题的抽象与分类主要用于确立问题的意图,问题的扩展与抽取主要是将问题扩展并转化为标准模板,以便抽取。答案的生成主要是将抽取的实体构建实体链,然后访问图形数据库,以求答案。问题的抽象首先,我们主要采以 Hanlp 提供的通用型命名实体工具包,并添加部分人工标注的命名实体,其添加的细则如下表所示: 问原创 2017-02-05 22:28:44 · 26804 阅读 · 9 评论 -
基于知识图谱的电影自动问答系统(一)知识的获取与存储
引言 这学期上自然语言处理课,老师需要我们合作完成一项大作业。当时的我早已对知识图谱感兴趣,有种跃跃欲试的冲动,正好逢上这样的一次机会。初生牛犊不怕虎,我就报上了“基于知识图谱的电影自动问答系统”。后来才发现,这项目的难度真的挺大,要做好不容易呀。关于本体、知识库、知识图谱 本体(Ontology),是知识库本身的存在。维基百科的定义是“a formal naming and defini原创 2017-02-05 21:49:56 · 17529 阅读 · 11 评论 -
自然语言处理课程学习总结
概念自然语言处理, 主要是研究如何利用计算机来理解和生成自然语言, 其发展经历了三个阶段, 分别是: Natural language understanding Natural language processing Computational Linguistics 现在的自然语言处理是一个门介乎语言学、计算机科学和认知心理学之间的交叉科学主要应用机器翻译、语言识别与合成、自动原创 2016-12-13 21:08:48 · 4178 阅读 · 0 评论 -
python做全文检索引擎
**python做全文检索引擎** 最近一直在探索着如何用python实现像百度那样的关键词检索功能。说起关键词检索,我们会不由自主地联想到正则表达式。正则表达式是所有检索的基础,python中有个re类,是专门用于正则匹配。然而,光光是正则表达式是不能很好实现检索功能的。 python有一个whoosh包,是专门用于全文搜索引擎。whoosh在国内使用的比较少,而它的性能还没有sph原创 2015-09-02 22:01:24 · 11202 阅读 · 1 评论 -
经典的分词方法实现(JAVA)
基于规则的自动分词算法原理(1) 事先人工建立好分词词典和分词规则库。 (2) 原理为基于字符串匹配进行分词,这样就要求有足够大的词表为依据。 (3) 通过一定的算法来实现,如正向最大匹配法、逆向最大匹配法、双向匹配法等。 (4) 忧缺点:当分词词典所收容的词较少时,显然覆盖度就有限,分词的正确率就低。正向最大匹配法算法描述设MaxLen表示最大词长,D为分词词典 (1) 从待切分语料中按正原创 2016-10-04 21:26:49 · 11082 阅读 · 2 评论 -
在eclipse中使用stanford构建中文依存关系树
前言stanford是著名的斯坦福大学自然语言处理工具包,现在支持的语言不仅仅是英语,而可以支持多方国家语言,中文就是其中的一部分.python中也有对应的nltk库,但核心的源代码还是JAVA.所以,我分享一些关于在eclipse中怎么使用stanford的过程stanford的安装使用我将stanford的相关jar包放到了我的百度云,不过也可以去官网下载(有点慢) xxx 将这些jar包导原创 2016-08-26 17:06:34 · 2003 阅读 · 1 评论 -
如何在ubuntu使用hanlp
前言 以前,我对大部分的处理中文分词都是使用python的结巴分词工具,该分词工具是在线调用API, 关于这个的分词工具的原理介绍,我推荐一个好的博客: http://blog.csdn.net/daniel_ustc/article/details/48195287. 随着项目的需求,我需要使用斯坦福大学的自然语言处理包standford作依存关系树的构建,然而standford很调皮地原创 2016-08-26 12:30:19 · 2534 阅读 · 0 评论 -
python实现PMI(求词语关联性)
关于PMIPMI, 是互信息(NMI)中的一种特例, 而互信息,是源于信息论中的一个概念,主要用于衡量2个信号的关联程度.至于PMI,是在文本处理中,用于计算两个词语之间的关联程度.比起传统的相似度计算, pmi的好处在于,从统计的角度发现词语共现的情况来分析出词语间是否存在语义相关 , 或者主题相关的情况.场景实例说起接触PMI的原因,是我在一个主题词挖掘研究的时候, 想到能否融入pmi,以增强主原创 2016-03-06 09:57:06 · 21038 阅读 · 9 评论 -
A3NCF: An Adaptive Aspect Attention Model for Rating Prediction
【论文会议】IJCAI2018【论文作者及机构】(1) Zhiyong Cheng: 南洋理工大学(2) Ying Ding: Vipshop研究院(3) Xiangnan He(何向南): 南洋理工大学(4) Lei Zhu: 山东师范大学(5) Xuemeng Song: 山东大学(6) Mohan Kankanhalli: 南洋理工大学注:何向南是推荐领域的大牛人物,其代表...原创 2019-04-11 23:05:45 · 1351 阅读 · 0 评论