数据流挖掘
场景: 网络安全, 骚扰短信等, 金融市场,视频流挖掘
特点: 高速到达, 连续不断的 , 计算一个精确结果不可能(时间要求高)
模型: 收银机模型 十字转门模型
算法:VFDT算法; fVFDT UFFT(超快速森林算法)
CRM中的应用
客户分类 : 分类和聚类
交叉销售: 关联规则(买完这个还想买什么); 聚类分析(对特点产品感兴趣的人群);神经网络和回归(预测顾客购买新产品的可能性)
盈利和信用分析: 回归分析
电子商务中数据挖掘
数据对象:
服务器日志(Server log,Error log); 代理服务器数据; Web页面; 异构数据源
过程:
数据预处理: 数据清理,用户识别,用户会话识别,访问路径补充和商务识别
模式识别:
模式分析:对模式进行过滤
可视化
应用:
挽留老客户; 提高站点点击率; 降低运营成本; 个性化弹窗
流量行为预测
通过使用k-means聚类算法,对网络流量进行分类
步骤
1. 网络层面:
在时间序列下,以源IP、目的IP和端口号作为特征值,描述流量情况,从这些数据中筛选出异常数据
2. 主机层面:
根据上步中数据,通过选取协议(TCP UDP)的部分情况、平均丢包率、包大小进行分析
数据预处理
使用 最小-最大规范化的方法对原始数据进行线性变化,对特定属性的数据进行按比例缩放
入侵检测
思想:
从训练数据中提取到涉及入侵检测的模式和知识,然后实施比较。
思路:
通过信息熵理论的使用解决K-means算法选择中心簇的问题,然后利用分类结果完善DBSCAN算法两个关键参数 Eps Minpts的设置,通过DBSCAN算法,进一步分析可疑的异常聚类,提高聚类的准确度