摘 要
短信业务的迅猛发展在丰富了人们的沟通方式的同时,同样遭受到垃圾短信的困扰。对于运营商来说,垃圾短信造成基础设施资源的巨大浪费;对于移动用户来说,大量的垃圾短信使用户不能够及时查看正常的短信,干扰了用户的正常生活。垃圾短信的识别已经成为一个亟待解决的问题,而传统的基于黑白名单、关键字进行过滤的效果有限,不能起到很好的识别效果。针对该问题,我们基于垃圾短信的文本内容,将文本分类算法应用到垃圾短信的分类中。我们使用了SVM、LR、GBDT和决策树算法进行垃圾短信的识别工作,最后我们制作了线上演示系统。结果显示系统在垃圾短信的识别上有着良好的表现。
关键词:垃圾短信、文本分类、GBDT、LR