特征工程
DilicelSten
Data has a better idea.
展开
-
人机文本分类特征构造——困惑度计算
最近在2018smp的一个比赛中锻炼了一下,该任务为文本分类,重点在于辨别人类作者和机器所写文章的不同,在一番仔细斟酌之后发现两者之间的区别有以下3点: (1)语序 机器所写的可能想表达的是一样的说法,是基于文本规则对抽取词汇的排列,但是结果呈现在词序的排序上却会出现一些偏差,举个栗子: 正确的句子: 这将是最好的未来 。 错误的句子: 这是将最好的未来 。 (2)语义 机器所写的内...原创 2018-07-10 19:56:50 · 1230 阅读 · 0 评论 -
人机文本分类特征构造——主题分布
上一篇博客是关于发现机器所写内容中语序调换的问题,这一篇博客主要讲如何发现文本内容中是否存在多个主题。对于模型的构建普遍使用的是gensim的LDA模型,而在这里我们使用了百度的开源工具Familia,下面将进行介绍~ 关于Familia Familia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型:Latent Dirichlet Allocation(...原创 2018-07-10 19:57:15 · 622 阅读 · 0 评论