自动构建文本分类标注语料的方法

本文介绍了四种自动构建文本分类标注语料的方法:基于搜索引擎,相关网站,Text Embedding(Word2vec)和聚类技术。通过初始化类别关键词库,利用搜索引擎、相关网站数据、词向量计算以及聚类分析,结合人工检查,可以有效地建立和扩充标注语料库。
摘要由CSDN通过智能技术生成

自动构建文本分类标注语料的方法

基于搜索引擎构建

  1. 初始化 类别关键词库,人工补充部分关键词
  2. 对于 类别关键词库,利用搜索引擎系统,搜索各个关键词的相关网页,提取内容
  3. 清洗网页内容,并计算类别的关键词,人工check后,加入到 类别关键词 中
  4. 重复 执行2,3,直到获得相应的语料库
  5. 最后,人工check语料库

基于相关网站构建

  1. 针对类目,人工找到相关网站和相关板块
  2. 直接爬取相关板块的网页,提取内容,作为标注语料
  3. 最后,人工check语料库

基于Text Embedding技术 (Word2vec)

  1. 初始化 类目关键词库,人工补充部分关键词
  2. 通过大规模开放料,如Wikipedia,训练词向量
  3. 通过相似度计算,直接查询 类目关键词 的相关词,补充 关键词库
  4. 人工check 类目关键词库,并将类目词库的词向量,采用max-pooling,获得类目的词向量
  5. 对于生语料中的文档,提取文本特征后,查询 相应的词向量,采用max-pooling,获得文档的词向量
  6. 文档词向量 与 类目词向量 计算相似度,将相似度最大的作为此文档的标注语料
  7. 最后人工check语料库

对于步骤4,也可以选取类目的top10(top100)个词向量 作为类目的向

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值