案例来源:@AI科技评论
案例地址:https://mp.weixin.qq.com/s/eVbRkwQu0BQKTblKMZAsfA
1. 目标:知乎中有“你可真是棒棒的”、“你开心就好”等评论,识别并过滤这些评论有助于提高社区讨论质量
2. 数据获取:
1)根据“举报”和“踩”,得到“阴阳怪气”样本
2)通过同义词替换,扩大样本量
3)根据提取的阴阳怪气样本,随机构造评论做数据增强,提高模型泛化能力
3. 特征工程
1)文本特征:加入阴阳怪气词库后,进行分词,保留标点、表情
2)数值特征:句子长度,句号数量,感叹号数量
3)embedding特征&#