赛题描述
目前商务网站或博客论坛允许用户发表针对产品或话题的一些评论看法,难免会存在一
些虚假的或是与产品及话题无关的评论信息,这极大地误导了商家、读者以及观点挖掘系统,
造成了资源的浪费。因此,垃圾观点文档的识别具有重要研究价值和实用意义。
本任务是对给定的语料集合中,要求参赛系统识别出文档是否为垃圾观点文档。要求完
成以下问题:
(
1
)针对下面介绍的情形,请建立合理的数学模型进行识别,并给出你的算法流程。并通
过程序验证,给出你的正确识别率。
(2)请在网络上收集一个更大的关于某件产品的评价集合,建立合理的数学模型和算法进
行识别,并给出你的结论。