骚扰电话、短信已经愈演愈烈,调查发现,当下无论是办证、办卡、网上购物、看病就医等诸多方面都会涉及公民个人信息,许多商家以各种名义获取公民的个人信息,而不少公民对个人信息保护意识淡薄,随意留取。短信几乎成广告推销专用:“海景现房,小户型精装修,详情来电致电”“现有宝马、奔驰、奥迪九成新车,最低10万”……翻看您的手机,相信绝大多数人的短信里充斥着此类卖房、卖车、打折促销甚至开发票、办贷款的垃圾短信,有些是以手机号发来,而绝大多数都是“106”开头的商业号码。这些短信,九成以上都是“被接收”的。除推销广告外,许多垃圾短信还以中奖的名义进行诈骗,让一些等待“天上掉馅饼”的人吃了大亏。中奖短信诈骗往往跨省甚至跨国,侦破难度非常大。比如,许多学生都租房子住,一些诈骗短信就以房东名义,让把房租打到一个卡上。有的学生接到这类短信后不经核实,就随意打钱。除了学生之外,一些中老年人也是易上当的群体。比如骗子会称“你的银行卡被用来洗黑钱,请把钱转到安全账户”,一些老年人缺乏社会经验,一步一步落入骗子圈套。此类诈骗短信或电话往往是无指定目标的“群发”,骗子通过广撒网的方式“捕捉”上当者。
1 朴素贝叶斯算法
使用朴素贝叶斯算法,特征提取使用词袋和TF-IDF模型,完整的处理流程
2 支持向量机算法
使用支持向量机算法,特征提取使用Word2Vec模型,完整的处理流程
3 XGBoost算法
XGBoost是近几年流行起来的一种分类算法,由Tianqi Chen最初开发的实现可扩展、便携、分布式gradient boosting算法的一个库,可以下载安装并应用于C++、Python、R等语言,现在由很多协作者共同开发维护。XGBoost所应用的算法就是gradient boosting decision tree,既可以用于分类也可以用于回归问题中。XGBoost最大的特点在于,它能够自动利用CPU的多线程进行并行,同时在算法上加以改进提高了精度。它的处女秀是Kaggle的希格斯子信号识别竞赛,因为出众的效率与较高的预测准确度在比赛论坛中引起了参赛选手的广泛关注,在1700多支队伍的激烈竞争中占有一席之地。随着它在Kaggle社区知名度的提高,最近也有队伍借助XGBoost在比赛中夺得第一。这里提到的Kaggle是由联合创始人、首席执行官安东尼·高德布卢姆2010年在墨尔本创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。该平台已经吸引了80万名数据科学家的关注。
4 深度学习算法之MLP
使用MLP算法,隐含层设计为2层,每次节点数分别为5和2,特征提取使用Word2Vec模型,完整的处理流程