![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
信息抽取
文章平均质量分 89
Macropodus
最后一次为理想而战。安知南山桂,绿叶垂芳根。何须浅碧深红色,自是花中第一流。
展开
-
pytorch-textsummary,中文文本摘要实践
pytorch-textsummary是一个以pytorch和transformers为基础,专注于中文文本摘要的轻量级自然语言处理工具,支持抽取式摘要等。原创 2024-02-20 16:24:26 · 1354 阅读 · 1 评论 -
序列标注理解
经典序列标注算法模型的区别,即贝叶斯NB,隐马尔科夫HMM,逻辑回归LR,最大熵隐马尔科夫MEMM,条件随机场CRF。原创 2022-07-27 09:43:36 · 204 阅读 · 0 评论 -
中文短语抽取/挖掘
中文短语抽取/挖掘概述短语抽取/挖掘(phrase extract/mining, 以下统称短语提取)是信息处理中领域的一项基本任务,但短语抽取与短语挖掘还是有些许不同。短语挖掘侧重于挖掘,一个常见的场景是半自动/自动从生语料中抽取/挖掘出高质量的短语,形成短语词典,提供给下游使用,这更多叫做短语挖掘。而短语抽取更关注抽取,侧重于无条件抽取应用,类似关键词抽取那样,使用者无条件抽取一篇文章中的短语,例如通用NLp工具中HanLP1.x的函数extract_phrase。短语抽取/挖掘与新词发现类似原创 2022-03-05 19:53:48 · 2423 阅读 · 0 评论 -
短语抽取专利汇总
短语抽取专利汇总利用语义特征的科技创新领域中文关键短语抽取方法及系统 【词性标注 + rake + 向量相似度】摘要:本发明公开了一种利用语义特征的科技创新领域中文关键短语抽取方法及系统。本发明通过挖掘中文科技创新文档语料特征,构建出中文停用词及停用模式库,实现对无效信息的高性能过滤;此外借助领域专家标注对各类关键短语抽取算法进行量化评估分析,从而选用更加适合领域认知的算法模型,并利用多种统计规则进行过滤以提升短语抽取性能;进一步利用文档的结构特点,对文档的主题语义进行向量空间嵌入表示,并综合利用原创 2022-02-28 09:39:21 · 865 阅读 · 3 评论 -
pytorch-sequencelabeling是一个支持softmax、crf、span等模型,注于序列标注(命名实体识别、词性标注、中文分词)的轻量级自然语言处理工具包,包含数据与实验
pytorch-sequencelabelingpytorch-sequencelabeling是一个支持softmax、crf、span等模型,只依赖pytorch、transformers、tensorboardX和numpy,专注于序列标注(命名实体识别、词性标注、中文分词)的轻量级自然语言处理工具包。目录数据使用方式paper参考Reference数据数据来源免责声明:以下数据集由公开渠道收集而成, 只做说明; 科学研究、商用请联系原作者; 如有侵权, 请及时联系原创 2021-08-29 12:49:09 · 1447 阅读 · 4 评论 -
Pytorch-NLU,一个中文文本分类、序列标注(实体识别、分词、词性标注)的极简工具包,基于pytorch与tramsforers
Pytorch-NLUPytorch-NLU是一个只依赖pytorch、transformers、numpy、tensorboardX,专注于文本分类、序列标注的极简自然语言处理工具包。支持BERT、ERNIE、ROBERTA、NEZHA、ALBERT、XLNET、ELECTRA、GPT-2、TinyBERT、XLM、T5等预训练模型;支持BCE-Loss、Focal-Loss、Circle-Loss、Prior-Loss、Dice-Loss、LabelSmoothing等损失函数;具有依赖轻原创 2021-08-29 12:12:41 · 2871 阅读 · 8 评论 -
开放信息抽取(OIE)系统(七)-- 开放信息抽取系统资源、应用与中文实战
开放信息抽取(OIE)系统(七)-- 开放信息抽取系统资源、应用与中文实战目录一.开放信息抽取系统应用二.中文开放信息抽取系统资源三.中文开放信息抽取系统实践四、代码与资源一.开放信息抽取系统应用开放信息抽取系统的目的是进行三元组的抽取,三元组自然有很多应用,以下描述的是一些经典应用场景:构建知识图谱、知识库等(Knowledge Graph),如Magi图搜索引擎、思知机器人构建的知识图谱;知识图谱问答(KBQA, Question Answer),抽取的三元组最为答案的约束, 例原创 2021-08-02 23:44:55 · 950 阅读 · 0 评论 -
开放信息抽取(OIE)系统(六)-- 中文开放信息抽取系统(依存句法、ZORE、CORE、ORE-CMBT、语料数据)
开放信息抽取(OIE)系统(六)-- 中文开放信息抽取系统(依存句法、ZORE、CORE、ORE-CMBT、语料数据)目录一.中文开放信息抽取系统二.中文开放信息抽取系统历史三. 中文开放信息抽取系统内容四、代码五、论文与文章六、中文开放关系抽取(部分)一.中文开放信息抽取系统“越是民族的,就越是世界的”,人工智能AI如此、自然语言处理NLP如此、开放信息抽取OIE系统也同样如此。不过之前的开放信息抽取系统并不是热点,英文的论文不多,也没啥应用,那就更不要说中文的了(不过知网上的中文原创 2021-08-01 03:05:54 · 2765 阅读 · 0 评论 -
开放信息抽取(OIE)系统(五)-- 第四代开放信息抽取系统(基于深度学习, deeplearning-based, 抽取式&生成式)
开放信息抽取(OIE)系统(五)-- 第四代开放信息抽取系统(基于深度学习, deeplearning-based, 抽取式&生成式)一.第四代开放信息抽取系统背景第四代开放信息抽取系统的诞生和发展离不开时代的浪潮,首先是深度学习迅猛发展,word-embedding、seq2seq-attention、attention、bert等技术层出不穷;然后就是前人开源出的各种OIE系统,也给数据标注等带来便利。 基于深度学习的开放信息抽取系统与之前的信息抽取方法有极大的不同,1)首先是使用开原创 2021-07-31 01:10:25 · 1637 阅读 · 0 评论 -
开放信息抽取(OIE)系统(四)-- 第三代开放信息抽取系统(基于子句, clause-based, 句子重组、删减)
开放信息抽取(OIE)系统(四)-- 第三代开放信息抽取系统(基于子句, clause-based, 句子重组、删减)一.第三代开放信息抽取系统背景 基于子句的开放信息抽取系统与之前的信息抽取方法不通,根本区别在于它在从句中检测分离出“有用信息”片段,从而进行三元组抽取。更具体地说,基于子句的开放信息抽取系统使用英语语言学知识(语法)首先检测文本中的从句,然后通过语法成分功能识别每个从句的类型。根据这些信息,基于子句的开放信息抽取系统能够进行高精度的三元组信息抽取;对这些三元组灵活定原创 2021-07-30 01:33:56 · 1171 阅读 · 0 评论 -
开放信息抽取(OIE)系统(三)-- 第二代开放信息抽取系统(人工规则, rule-based, 先抽取关系)
开放信息抽取(OIE)系统(三)-- 第二代开放信息抽取系统(人工规则, rule-based, 先关系再实体)一.第二代开放信息抽取系统背景 第一代开放信息抽取系统(Open Information Extraction, OIE, learning-based, 自学习, 先抽取实体)通常抽取大量冗余信息,为了消除这些冗余信息,诞生了第二代开放信息抽取系统。二.第二代开放信息抽取系统历史第二代开放信息抽取系统着眼于解决第一代系统的三大问题: 大量非信息性提取(即省略关键信息的提取)、原创 2021-07-29 00:06:25 · 731 阅读 · 0 评论 -
开放信息抽取(OIE)系统(二)-- 第一代开放信息抽取系统(自学习, learning-based,先抽取实体)
开放信息抽取(OIE)系统(二)-- 第一代开放信息抽取系统(自学习, 先抽取实体)一.第一代开放信息抽取系统背景 信息抽取一般指的是实体抽取、关系抽取和事件抽取等;信息抽取系统,尤其是开放信息抽取系统,相比于传统的有监督信息抽取, 区别在于开放信息抽取系统往往不需要指定或定义实体和关系的类型。由半手工的KnowItAll系统改进而来,Banko等人(2007年)第一次提出了开放信息抽取(OIE, Open Information Extraction)的概念,设计了Textrunne原创 2021-07-28 22:28:11 · 720 阅读 · 1 评论 -
开放信息抽取(OIE)系统(一)--概述
开放信息抽取(OIE)系统(一)——概述一、知识1.1 知识的定义 知识( knowledge)是符合文明方向的,人类对物质世界以及精神世界探索的结果总和。知识,至今也没有一个统一而明确的界定。但知识的价值判断标准在于实用性,以能否让人类创造新物质,得到力量和权力等等为考量。有一个经典的定义来自于柏拉图:一条陈述能称得上是知识必须满足三个条件,它一定是被验证过的,正确的,而且是被人们相信的,这也是科学与非科学的区分标准。由此看来,知识属于文化,而文化是感性与知识上的升华,这就是知识与文原创 2021-04-04 23:36:15 · 5468 阅读 · 4 评论