数据挖掘笔记(7)——应用

数据流挖掘

    场景: 网络安全, 骚扰短信等,  金融市场,视频流挖掘

    特点: 高速到达, 连续不断的 , 计算一个精确结果不可能(时间要求高)

    模型: 收银机模型  十字转门模型

       算法:VFDT算法; fVFDT   UFFT(超快速森林算法)

CRM中的应用

    客户分类 : 分类和聚类

    交叉销售: 关联规则(买完这个还想买什么); 聚类分析(对特点产品感兴趣的人群);神经网络和回归(预测顾客购买新产品的可能性)

    盈利和信用分析: 回归分析   

电子商务中数据挖掘

数据对象:

      服务器日志(Server log,Error log); 代理服务器数据; Web页面; 异构数据源

过程:

        数据预处理:  数据清理,用户识别,用户会话识别,访问路径补充和商务识别

        模式识别:

        模式分析:对模式进行过滤

        可视化

应用:

        挽留老客户;  提高站点点击率;  降低运营成本; 个性化弹窗

流量行为预测

         通过使用k-means聚类算法,对网络流量进行分类

步骤

1.      网络层面:

在时间序列下,以源IP、目的IP和端口号作为特征值,描述流量情况,从这些数据中筛选出异常数据

2.      主机层面:

根据上步中数据,通过选取协议(TCP UDP)的部分情况、平均丢包率、包大小进行分析

数据预处理

         使用 最小-最大规范化的方法对原始数据进行线性变化,对特定属性的数据进行按比例缩放

入侵检测

思想:

         从训练数据中提取到涉及入侵检测的模式和知识,然后实施比较。

思路:

         通过信息熵理论的使用解决K-means算法选择中心簇的问题,然后利用分类结果完善DBSCAN算法两个关键参数 Eps Minpts的设置,通过DBSCAN算法,进一步分析可疑的异常聚类,提高聚类的准确度


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值