自动构建文本分类标注语料的方法

最新推荐文章于 2024-05-05 12:29:50 发布

link-mountain

最新推荐文章于 2024-05-05 12:29:50 发布

阅读量3.8k

点赞数

分类专栏： tc 文章标签：自动构建文本分类标注语料

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/heisi_lai2/article/details/52816629

版权

本文介绍了四种自动构建文本分类标注语料的方法：基于搜索引擎，相关网站，Text Embedding（Word2vec）和聚类技术。通过初始化类别关键词库，利用搜索引擎、相关网站数据、词向量计算以及聚类分析，结合人工检查，可以有效地建立和扩充标注语料库。

摘要由CSDN通过智能技术生成

自动构建文本分类标注语料的方法

基于搜索引擎构建

初始化类别关键词库，人工补充部分关键词
对于类别关键词库，利用搜索引擎系统，搜索各个关键词的相关网页，提取内容
清洗网页内容，并计算类别的关键词，人工check后，加入到类别关键词中
重复执行2,3，直到获得相应的语料库
最后，人工check语料库

基于相关网站构建

针对类目，人工找到相关网站和相关板块
直接爬取相关板块的网页，提取内容，作为标注语料
最后，人工check语料库

基于Text Embedding技术（Word2vec）

初始化类目关键词库，人工补充部分关键词
通过大规模开放料，如Wikipedia，训练词向量
通过相似度计算，直接查询类目关键词的相关词，补充关键词库
人工check 类目关键词库，并将类目词库的词向量，采用max-pooling，获得类目的词向量
对于生语料中的文档，提取文本特征后，查询相应的词向量，采用max-pooling，获得文档的词向量
文档词向量与类目词向量计算相似度，将相似度最大的作为此文档的标注语料
最后人工check语料库

对于步骤4，也可以选取类目的top10(top100)个词向量作为类目的向

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。