【KDD2024教程】大语言模型时代下的文本结构化知识自动挖掘

10bce72acce85db1ecfe9cbc3303034a.png

来源:专知
本文为论文介绍,建议阅读5分钟
在本教程中,我们将介绍使用语言模型进行结构化知识挖掘的最新进展,重点介绍弱监督学习方法。

f29349e09dcbf4c63a0cf5837ba5b93f.png

每天都会生成大量的非结构化文本数据,涵盖从新闻文章到科学论文等内容。如何从这些文本数据中挖掘结构化知识依然是一个关键的研究问题。最近,大语言模型(LLMs)凭借其卓越的文本理解能力和指令跟随能力,为文本挖掘领域带来了新的希望。通常有两种利用LLMs的方法:一是通过人工标注的训练数据对LLMs进行微调,这需要大量的人工投入,难以扩展;二是在零样本或少样本的情况下提示LLMs,这种方法无法充分利用海量文本数据中的有用信息。因此,在大语言模型时代,如何从海量文本数据中自动挖掘结构化知识仍然是一个挑战。

在本教程中,我们将介绍使用语言模型进行结构化知识挖掘的最新进展,重点介绍弱监督学习方法。我们将涵盖以下主题:

  1. 大语言模型的介绍,它是近期文本挖掘任务的基础;

  2. 本体构建,自动从海量语料库中丰富本体;

  3. 在平面和层次化标签空间中的弱监督文本分类;

  4. 弱监督信息抽取,提取实体和关系结构。

    https://yzhan238.github.io/kdd24-tutorial/

幻灯片

  • 介绍 

  • 第一部分:文本分析中的语言基础模型

  • 第二部分:分类体系的构建与丰富

  • 第三部分:弱监督文本分类

  • 第四部分:弱监督信息抽取 

  • 结论

1336b40f3dc243c8ee01c986d5de221e.png

c581343a528f2e93bcee2c846ff83549.png

8cc0f5e1e4341cbef1bca7016aaac2eb.png

920c18c6b6a82db71a69001b3698d7ba.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

302e8c01944df88997f35f22b72301bc.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值