数据挖掘笔记（7）——应用

最新推荐文章于 2023-07-11 15:23:07 发布

高新普惠_搬砖手

最新推荐文章于 2023-07-11 15:23:07 发布

阅读量910

点赞数

分类专栏： JAVA技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dananhai381/article/details/10359303

版权

JAVA技术专栏收录该内容

83 篇文章 0 订阅

订阅专栏

数据流挖掘

场景：网络安全，骚扰短信等，金融市场，视频流挖掘

特点：高速到达，连续不断的，计算一个精确结果不可能（时间要求高）

模型：收银机模型十字转门模型

算法：VFDT算法； fVFDT UFFT(超快速森林算法)

CRM中的应用

客户分类：分类和聚类

交叉销售：关联规则（买完这个还想买什么）；聚类分析（对特点产品感兴趣的人群）；神经网络和回归（预测顾客购买新产品的可能性）

盈利和信用分析：回归分析

电子商务中数据挖掘

数据对象：

服务器日志（Server log，Error log）；代理服务器数据； Web页面；异构数据源

过程：

数据预处理：数据清理，用户识别，用户会话识别，访问路径补充和商务识别

模式识别：

模式分析：对模式进行过滤

可视化

应用：

挽留老客户；提高站点点击率；降低运营成本；个性化弹窗

流量行为预测

通过使用k-means聚类算法，对网络流量进行分类

步骤

1. 网络层面：

在时间序列下，以源IP、目的IP和端口号作为特征值，描述流量情况，从这些数据中筛选出异常数据

2. 主机层面：

根据上步中数据，通过选取协议（TCP UDP）的部分情况、平均丢包率、包大小进行分析

数据预处理

使用最小-最大规范化的方法对原始数据进行线性变化，对特定属性的数据进行按比例缩放

入侵检测

思想：

从训练数据中提取到涉及入侵检测的模式和知识，然后实施比较。

思路：

通过信息熵理论的使用解决K-means算法选择中心簇的问题，然后利用分类结果完善DBSCAN算法两个关键参数 Eps Minpts的设置，通过DBSCAN算法，进一步分析可疑的异常聚类，提高聚类的准确度

高新普惠_搬砖手

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。