知识图谱
文章平均质量分 78
blmoistawinde
上海西南某高校学森一枚,数据玩家,喜欢有趣有意义的数据挖掘分析。目前兴趣方向在NLP,社交网络分析和知识图谱等。
向往风一般自由,希望拂过之处给世界带来些清新与滋润~
邮箱:blmoistawinde@qq.com
Github:https://github.com/blmoistawinde
展开
-
conceptnet-numberbatch: 结合常识知识的词向量 - 概述及使用
在NLP领域,常识知识的使用越发成为热点,因为其有希望帮助克服现有模型的局限:它们仅从训练数据中学到的有偏的、浅薄的知识,而并不擅长像人一样进行真正的推理。常识知识的表示形式有很多:有的是以图的形式,如ConceptNet;有的是以模型的形式,如COMET;而本文要介绍的应该是其中比较易于使用的一种,词向量形式。其代表是conceptnet-numberbatch。简介ConceptNet Numberbatch 是一组词向量,可以直接以向量形式表达词的语义。它是ConceptNet开源项目的一部分原创 2020-11-26 21:21:32 · 1722 阅读 · 0 评论 -
交大ADAPT实验室 | 常识知识论文列表
近年来,常识知识(commonsense knowledge)越发成为NLP领域,乃至多模态,跨学科的研究热点。尽管以BERT为代表的的预训练语言模型已经在实体识别、机器翻译、情感分析等任务上取得了亮眼的表现,它们在面对一些人类可以使用常识轻易解决的问题时仍然表现不佳,面对对抗样本时也极为脆弱。似乎这些模型知识只是学到了一些浅层线索和语义,而与人类的知识体系并不相同。因此,将常识知识融入机器学习中就成为了一个充满前景的解决方案。不过,如何抽取常识知识,如何利用常识知识,乃至如何定义“常识本身”依然是有待研究原创 2020-11-16 15:06:16 · 1364 阅读 · 0 评论 -
用HarvestText自动识别实体及人物别名,用于实体链接分析
用HarvestText自动识别实体及别名,用于实体链接分析原创 2020-01-26 21:12:05 · 1615 阅读 · 2 评论 -
python用re.sub实现分组匹配和替换(及问答系统中的应用)
关于正则表达式替换,前面我写过一个应用: python2代码搬运到python3要改很多print? 试试用pyCharm的正则表达式替换 其实这里的替换已经使用了分组的思想。 上面一行的匹配模式print (\S*)中,括号括起的部分匹配到的内...原创 2018-08-19 17:23:14 · 21524 阅读 · 3 评论 -
基于知识图谱的文本自动注释(python+html)
在探索知识图谱的过程中,发现它可以做一个有趣的应用——文本自动注释。在此整理并分享给大家。下面使用jupyter notebook展示:原创 2018-08-17 17:09:17 · 2606 阅读 · 2 评论 -
实体知识+字典树辅助jieba的分词(并对三国演义进行简单分析)
在做中文NLP的时候,分词可谓是基础中的基础。然而这个基础部分的内容直到今天还是让人不省心,在实际应用中【尤其是在人名等实体的识别上】总是显得漏洞百出。改进主要思路:利用字典树(Trie)预先扫描文本,并把识别到的实体替换为一个标准词(这里我用了"人占位符"),再使用jieba的add_word使得标准词一定会被分词器识别出来,最后再在分词结果中把标准词按照位置换回原文或者标准实体名。原创 2018-09-04 16:19:49 · 2552 阅读 · 0 评论 -
基于三元组知识图谱的简易问答系统
最近实现了一个基于三元组知识图谱的简易问答系统,下面整理一下我的搭建思路:要解决问答的问题,其实就是要步步解决三个问题:问了什么?答案是什么?怎么回答?问了什么?【问句解析】基于知识图谱的问答系统很难直接回答自然文本状态的问题,所以我们要把问题转化为一定的结构。一个很好的选择就是三元组:RDF是知识图谱的一种常见表示形式,以(subject, predicate, object)的三元组形...原创 2019-01-20 10:37:07 · 16053 阅读 · 1 评论 -
准备考试?python也能帮你划重点,上考场(误)
打开查分界面,我看到我的“中国近现代史纲要”一栏露出了难看的脸色。这时,一个程序突然自告奋勇:“不就是这种简单的考试吗?让我学一下你们的课本,我也能够上考场!”我把我的课本文本输入给它。不到一分钟以后,它对我说:“我学完了,来考我吧。”虽然也只是在考前突击了两天,但我对它如此之快的速度还是深感嫉妒。我问:“你知道孙中山先生都干了哪些事情吗?”“发动护法运动、就任临时大总统、让位于袁世凯”...原创 2020-07-23 20:33:09 · 1268 阅读 · 0 评论