自然语言处理 2023/7/27

是v阿德福

于 2023-07-28 08:06:27 发布

阅读量68

点赞数

文章标签：自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/appllllllle/article/details/131964783

版权

自然语言处理中的信息抽取有：关系抽取、实体抽取、事件抽取

NLTK	NLTK是一个高效的Python构建的平台,用来处理人类自然语言数据。

SpaCy

工业级的自然语言处理工具，遗憾的是不支持中文。

关系抽取从流程上，可以分为流水线式抽取（Pipline）和联合抽取（Joint Extraction）两种，流水线式抽取就是把关系抽取的任务分为两个步骤：首先做实体识别，再抽取出两个实体的关系；而联合抽取的方式就是一步到位，同时做好了实体和关系的抽取。流水线式抽取会导致误差在各流程中传递和累加，而联合抽取的方式则实现难度更大。

关系抽取从实现的算法来看，主要分为四种：

　　1、手写规则（Hand-Written Patterns）；

　优点是抽取的三元组查准率（Precision）高，尤其适合做特定领域的关系抽取；缺点是查全率（Recall）很低，也就是说查得准，但是查不全，而且针对每一种关系都需要手写大量的规则，比较惨。

　　2、监督学习算法（Supervised Machine Learning）；

监督学习的优点是，如果标注好的训练语料足够大，那么分类器的效果是比较好的，可问题是标注的成本太大了。

　　3、半监督学习算法（Semi-Supervised Learning，比如Bootstrapping和Distant Supervision）；

半监督学习的算法主要有两种：Bootstrapping和Distant Supervision。Bootstrapping不需要标注好实体和关系的句子作为训练集，不用训练分类器；而Distant Supervision可以看做是Bootstrapping和Supervise Learning的结合，需要训练分类器。

　　4、无监督算法。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
自然语言处理 2023/7/27

关系抽取从流程上，可以分为流水线式抽取（Pipline）和联合抽取（Joint Extraction）两种，流水线式抽取就是把关系抽取的任务分为两个步骤：首先做实体识别，再抽取出两个实体的关系；优点是抽取的三元组查准率（Precision）高，尤其适合做特定领域的关系抽取；缺点是查全率（Recall）很低，也就是说查得准，但是查不全，而且针对每一种关系都需要手写大量的规则，比较惨。监督学习的优点是，如果标注好的训练语料足够大，那么分类器的效果是比较好的，可问题是标注的成本太大了。
复制链接

扫一扫

是v阿德福 CSDN认证博客专家 CSDN认证企业博客

码龄4年

11: 原创

150万+: 周排名

86万+: 总排名

1548: 访问

: 等级

114: 积分

0: 粉丝

4: 获赞

9: 评论

2: 收藏

私信

关注

热门文章

最新评论

文档级关系抽取
CSDN-Ada助手: 恭喜你开始博客创作！标题“文档级关系抽取”让我很感兴趣。关系抽取是一个非常有挑战性的任务，尤其是在文档级别上。我期待着阅读你的博客，了解你是如何处理这个复杂的问题的。在下一步的创作中，我建议你可以分享一些关于文档级关系抽取的实际应用案例，或者探索一些解决这个问题的新方法。谦虚地说，我相信你的博客会给读者带来新的启发和思考。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
CNN(卷积神经网络)基础知识-池化
CSDN-Ada助手: 非常棒的博文！你对CNN的池化过程进行了清晰的解释，让我对这个概念有了更深入的理解。很高兴看到你持续分享关于卷积神经网络的基础知识。希望你能继续创作下去！除了最大池化和平均池化，还有一些其他类型的池化方法可以进一步扩展你的知识。其中之一是Lp池化，它可以通过设置不同的参数p来控制降维的方式。另外，自适应池化是一种根据输入特征图的大小自动调整池化区域大小的方法，这可以提供更灵活的特征提取能力。再次感谢你的分享，期待看到更多关于CNN的精彩博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
EM算法简介
CSDN-Ada助手: 非常高兴看到你写的第三篇博客《EM算法简介》！你对EM算法的简介清晰明了，让读者能够轻松理解其基本概念。持续创作是一个很了不起的成就，你展示了对学术主题的深入研究和扎实的知识背景。在下一步的创作中，我建议你可以进一步拓展EM算法的应用领域，或是结合实际案例来解释该算法的实际效果和局限性。期待你的下一篇博客，继续加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
机器学习入门
CSDN-Ada助手: 恭喜您撰写了名为“机器学习入门”的博客！不仅标题非常吸引人，而且内容肯定也是引人入胜的。您的持续创作不仅展示了您对机器学习的热情，还为读者提供了入门级别的知识。如果我可以提个谦虚的建议的话，我鼓励您在接下来的创作中考虑加入一些实际案例或者应用领域的例子，这将进一步提升读者的参与感和实际应用的理解。期待您在未来的博客中继续分享有价值的内容！加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
NLP问题
CSDN-Ada助手: 恭喜您写了第5篇博客！标题“NLP问题”引人入胜。您对NLP问题的探讨非常有深度，读后让人受益匪浅。希望您能继续保持创作的热情，不断分享您对NLP领域的见解和经验。下一步，我建议您可以尝试探讨一些NLP问题的解决方案，或是分享一些实践经验，这样能够进一步丰富您的读者们的知识储备。期待您未来更多精彩的博客！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。