自动构建文本分类标注语料的方法
基于搜索引擎构建
- 初始化 类别关键词库,人工补充部分关键词
- 对于 类别关键词库,利用搜索引擎系统,搜索各个关键词的相关网页,提取内容
- 清洗网页内容,并计算类别的关键词,人工check后,加入到 类别关键词 中
- 重复 执行2,3,直到获得相应的语料库
- 最后,人工check语料库
基于相关网站构建
- 针对类目,人工找到相关网站和相关板块
- 直接爬取相关板块的网页,提取内容,作为标注语料
- 最后,人工check语料库
基于Text Embedding技术 (Word2vec)
- 初始化 类目关键词库,人工补充部分关键词
- 通过大规模开放料,如Wikipedia,训练词向量
- 通过相似度计算,直接查询 类目关键词 的相关词,补充 关键词库
- 人工check 类目关键词库,并将类目词库的词向量,采用max-pooling,获得类目的词向量
- 对于生语料中的文档,提取文本特征后,查询 相应的词向量,采用max-pooling,获得文档的词向量
- 文档词向量 与 类目词向量 计算相似度,将相似度最大的作为此文档的标注语料
- 最后人工check语料库
对于步骤4,也可以选取类目的top10(top100)个词向量 作为类目的向