摘 要
营商在现网垃圾短信治理中,常采用关键字+规则的方法,难以在拦截成功率和误拦正常短信之间找到平衡。基于文本语义分析识别垃圾短信,则需要解决大数据挖掘算法、海量数据处理、响应时效等问题,因此在大业务量的集约化平台上应用并不广泛。通过算法研究、开发原型系统等工作,探索基于流式计算的垃圾短信治理技术方案,研发了一套基于Storm+Mahout架构的垃圾短信识别原型系统,完成了性能和准确率测试,取得了较好的效果。
前 言
通信技术的进步、移动终端的普及和移动通信网络的能力提升为移动信息服务在中国的推广带来了机遇。根据工信部统计数据,2022年我国移动短信业务总量为118748亿条,比上年同期增长6.4%,移动短信业务收入为401亿元,比上年同期增长2.7%。其中,个人短信市场收入为22.7亿元,占比5.7%;验证码服务市场收入为131.39亿元,占比32.8%;行业应用短信服务市场收入为102.73亿元,占比25.6%;其他企业短信市场收入为143.98亿元,占比35.9%[1]。近年来,由于微信、line等社交通信技术的快速发展,国内个人短信业务呈现快速下滑态势,而企业短信业务整体维持良好的增长态势。
企业短信是当前国内行业移动信息服务的主要产品形