如何构建一个反电信网络诈骗基础模型

57 篇文章 6 订阅
48 篇文章 4 订阅

如何构建一个反电信网络诈骗基础模型

    2017-05-10 11:26  浏览次数:413

文|西角边的MR

网络诈骗,电信诈骗层出不穷,花样翻新,防不胜防,伤害普通百姓利益。本文通过对目前社会上关于网络电信诈骗新闻进行提取,从中分析当前网络诈骗发展趋势和关键因素,进而构建合理的反诈骗模型。

bee9383f74344a869ae0fb123053610f_th.jpeg

一、对关键词的分析

参考

如何从新闻中识别骗子们的小套路

爬虫获取了网站关于电信诈骗的新闻。

2017-04-30 09-07-57 的屏幕截图.png

其中keyword是通过jieba对文本进行分词得到的。对于关键词的分析主要从两个方面考虑,一个是关键词之间是否有诈骗逻辑,第二是对具有诈骗逻辑的关键词进一步分析,分为消极词汇(例如你被法院传讯了)和积极词汇(例如你又双叒叕成为幸运观众了),这两种词汇在诈骗中对受害者产生的心理影响是不同的。

1、首先笔者构建一个词语出现的频率表(指标矩阵)。

由于爬虫爬取的时间格式具体到秒,要以天为单位进行的关键词统计,实现方法是以时间为索引构建时间和关键词词典。

2017-04-30 09-21-51 的屏幕截图.png

2017-04-30 09-34-06 的屏幕截图.png

时间和关键词的指标矩阵如上图所示,并将它存为csv文件以便后续处理。

通过构建指标矩阵可以大致得知这些关键词出现的日期和频率,为后期构建关键词词组打下基础。

2、对于关键词分析

接下来用pandas读取上述csv文件,获得一个Dataframe类型的变量来处理。

假设对于同一天出现在同一篇文章的关键词具有相关性。

Dataframe里有自定义的函数corr可以求得每个column之间的相关系数,经过index转换后得到一张相关性系数表。

经过计算后,笔者发现这里面的相关性系数有正有负,当相关性系数大于0时,可以认为这个词组存在诈骗逻辑。

对于变量大于0的情况,还要进一步分类,计算它们的情感态度值。通过查阅资料,笔者发现需要许多数据才能构成一张情感态度分值表,所以笔者使用了现成的snowNLP的工具包来获得其态度值,并以0.5为界限进行积极和消极分类,可视化展示如下:

attitude.png

 

 

以csv的形式存储获取的数据,这个比例以后会用于计算诈骗概率。

从中我们便获取了具有假设网络诈骗逻辑的词组。


二、对关键词是否具有相关性的判断

对于用于判断新的文本中提取出来的关键词是否具有电信网络诈骗的相关性,我们可以尝试如下方法

1、概率计算

对关键词的相关性统计如下:

Histogram of correlation .png

从图中可以知道大部分词语之间都是不能构成诈骗逻辑,在0.5,0.75和1左右只有很少一部分词语。如果数据量够大的话或许可以采用这种方法。所以并不建议使用此类方法。

2、分类方法

对于获取的词组,可以分为有相关性(>0)和没有相关性的(<0)两类,构建为机器学习样本({word1:value,word2:value,word3:value},class:value)。然后将样本分为训练集和测试集。这里笔者分别使用了朴素贝叶斯的方法和决策树的方法并进行了比较。这个分类器可以自己尝试写,也可以使用nltk里的自带函数来处理。

2017-04-30 10-00-29 的屏幕截图.png

构建的样本代码如上图。

2017-04-30 10-00-59 的屏幕截图.png

上图是使用bayes和tree进行分类,并计算准确度。

Compare result.png

从图中发现训练集和测试集按照4:1进行分类时,使用bayes的精确度最为合适。

从中可以对新提取的关键词来判断是否具有相关性,而这个相关性也就是指符合电信网络诈骗的逻辑思维。对于具有这种相关性的新词组,可以继续对词组的情感态度进行进一步分类。


三、对诈骗出现时间特点的选取

网络电信诈骗中,时间因素也是一个很重要的参量。

一般节假日是案件的高发期,所以计算诈骗概率的时候要结合时间因素。怎样对时间采样可以获得一个比较准确的概率预测?这里笔者采用了以季度为单位和以月份为单位的预测模型。

笔者首先统计出这些新闻出现的大致变化趋势,新闻能从一定程度上反映当前社会对于诈骗案件的关注程度。

Statistic of news.png

橙黄色表示的是当日对网络电信诈骗新闻的报道篇数,红色表示一周左右的一个移动平均数,灰色是移动平均标准差。从中大致可以看出电信网络诈骗的出现频率大致上是随某一热度时间出现。

为了能够更好的分别热度出现的时间阈值,笔者对时间进行按月统计和按季度统计。 

Fitting results_month.png

 这是以月份为采样的统计,并进行了拟合后的结果。从中分析电信网络案件在1月,9月呈现高发态势。

Fitting result_season.png

这是以季度为采样的统计,并进行了拟合。从图中大概可以看出一般在每年的四季度到下一年的一季度,每年的暑假到开学这季度,电信网络诈骗案件呈现高发态势。

为了能够准确统计诈骗随时间变化的趋势,笔者使用类似决策树算法的方法来计算两种采样频率的信息熵。

2017-04-30 10-26-37 的屏幕截图.png

2017-04-30 10-26-44 的屏幕截图.png

这是两种采样对于不同阶数的拟合误差,如下图所示:

Different result in orders_month.png

以月份为采样,对于不同阶数的拟合误差。

Different result in orders_season.png

以季度为采样,对于不同阶数的拟合误差。

经过决策计算后,以季度为采样频率的计算反映诈骗随时间变化的趋势更为准确。当然拟合曲线是否具有预测性还等待确定。不过目前一个可行的方法就是以季度为采样,统计各个季度的出现频率并使用回归模型预测(这里也试用过ARIMA模型,但是并没有将这个划归为平稳曲线,所以目前这只能这样做)。


四、结论

1、电信网络诈骗中,更趋向于使用一些积极词汇,例如中奖等信息来对用户实施诈骗。

2、电信网络诈骗的大致发展趋势是上一年的最后季度和年初的第一季度,从中可以大致得出其主要是利用了受害者在过年时放松警惕,易轻信他人的特点。

3、每年的开学季也是电信网络诈骗的一个次要高峰期,这一阶段的主要对象是学生群体,利用家长,学生的求学的心理来针对性的实施诈骗。

五、总结

通过对于关键词和时间序列的分析,在构建网络及电信诈骗模型的时候,我们要综合考虑一下几点:

1、从文章中提取的关键词要进行相关性分类和情感态度分类。相关性分类是为了获取具有诈骗逻辑的关键词组,情感态度分类是为了对具有诈骗逻辑词组的词语进行积极和消极分类。

2、对于新出现的词组判断是否具有相关性可以利用已有的相关性词汇表,构建训练集组成机器学习模型。

3、对于时间因素来说,要选择合适的时间采样频率。实现方法是以不同的时间间隔,计算相应时间间隔内新闻出现的频率,计算不同时间间隔的信息熵并进行比较,最终选择出对应信息熵较低的时间频率。

当然我们同时也要不断提高自己的防范意识,不轻信,不贪占小便宜,对自己的财产安全负责。

  • 7
    点赞
  • 72
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
一、背景 随着互联网和移动通信技术的发展,电信网络已成为人们日常生活和工作中不可或缺的一部分。但是,电信网络也面临着不法分子的攻击和欺诈行为,如诈骗、通信信息泄露、网络钓鱼等,给用户带来了很大的损失和威胁,也严重影响了电信企业的形象和利益。因此,电信企业需要建立一种欺诈分析模型,以识别和预防欺诈行为,保护用户的利益和电信企业的利益。 二、需求 1. 数据源:模型需要从电信企业的数据仓库中提取相关数据,包括用户的通信记录、账单信息、身份信息等,应该具备对这些数据进行处理和清洗的能力。 2. 数据分析:模型需要对提取的数据进行分析,包括对用户的通信行为和账单信息进行统计和分析,挖掘用户的消费行为和欺诈行为的特征,构建用户的行为模型和欺诈模型。 3. 数据挖掘:模型需要利用数据挖掘算法,如关联规则、聚类、分类等,对用户的通信行为和账单信息进行挖掘,识别潜在的欺诈行为。同时,模型还需要利用机器学习算法,构建欺诈识别模型,实现对欺诈行为的自动识别和预测。 4. 预警系统:模型需要实现预警系统,及时发现和预警潜在的欺诈行为,以便电信企业采取相应的措施,保护用户的利益和企业的利益。 5. 平台支持:模型需要具备跨平台的支持能力,可以在不同的操作系统和硬件平台上运行和部署。 6. 安全性:模型需要具备较高的安全性,保护用户的信息和企业的机密信息不被泄露或攻击。 三、总结 本文介绍了电信欺诈分析模型的需求,包括数据源、数据分析、数据挖掘、预警系统、平台支持和安全性。这些需求可以帮助电信企业构建有效的欺诈机制,保护用户的利益和企业的利益,提高电信服务的质量和安全性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值