数据离散化与数据概化

最新推荐文章于 2023-10-04 20:40:56 发布

车库男孩

最新推荐文章于 2023-10-04 20:40:56 发布

阅读量3.3k

点赞数

分类专栏：大数据及数据挖掘

大数据及数据挖掘专栏收录该内容

14 篇文章 0 订阅

订阅专栏

离散化指把连续型数据切分为若干“段”，也称bin，是数据分析中常用的手段。切分的原则有等距，等频，优化，或根据数据特点而定。在营销数据挖掘中，离散化得到普遍采用。究其原因，有这样几点：
①算法需要。例如决策树，NaiveBayes等算法本身不能直接使用连续型变量，连续型数据只有经离散处理后才能进入算法引擎。这一点在使用具体软件时可能不明显。因为大多数数据挖掘软件内已经内建了离散化处理程序，所以从使用界面看，软件可以接纳任何形式的数据。但实际上，在运算决策树或NaiveBayes模型前，软件都要在后台对数据先作预处理。
②离散化可以有效地克服数据中隐藏的缺陷：使模型结果更加稳定。例如，数据中的极端值是影响模型效果的一个重要因素。极端值导致模型参数过高或过低，或导致模型被虚假现象“迷惑”，把原来不存在的关系作为重要模式来学习。而离散化，尤其是等距离散，可以有效地减弱极端值和异常值的影响，

③有利于对非线性关系进行诊断和描述：对连续型数据进行离散处理后，自变量和目标变量之间的关系变得清晰化。如果两者之间是非线性关系，可以重新定义离散后变量每段的取值，如采取0，1的形式，由一个变量派生为多个哑变量，分别确定每段和目标变量间的联系。这样做，虽然减少了模型的自由度，但可以大大提高模型的灵活度。

概念分层：

1 分箱

2 直方图分析

3 基于熵的离散化

4 基于X2分析的区间合并

5 聚类分析

6 通过直观划分离散化

离散数据的概化

1 由用户或专家在模式级显示地说明属性的部分序

2 通过显示数据分组说明分层结构的一部分

3 说明属性集但不说明他们的偏序

4 只说明部分属性集

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据离散化与数据概化

离散化指把连续型数据切分为若干“段”，也称bin，是数据分析中常用的手段。切分的原则有等距，等频，优化，或根据数据特点而定。在营销数据挖掘中，离散化得到普遍采用。究其原因，有这样几点：①算法需要。例如决策树，NaiveBayes等算法本身不能直接使用连续型变量，连续型数据只有经离散处理后才能进入算法引擎。这一点在使用具体软件时可能不明显。因为大多数数据挖掘软件内已经内建了离散化处理程序，所以从
复制链接

扫一扫

专栏目录

车库男孩 CSDN认证博客专家 CSDN认证企业博客

码龄15年

6: 原创

31万+: 周排名

106万+: 总排名

13万+: 访问

: 等级

1528: 积分

31: 粉丝

31: 获赞

6: 评论

75: 收藏

私信

关注

热门文章

分类专栏

Linux 21篇
openstack 6篇
Python 4篇
云计算 5篇
Java 7篇
大数据及数据挖掘 14篇
C/C++ 1篇
车库百科 16篇
算法
感悟经验 8篇
其他 7篇
WEB开发 4篇

最新评论

Openstack百科——计算资源池
没有人比我更懂重启: 我等了快十年了，待续的什么时候续一下啊
一位计算机专业硕士毕业生的求职经历和感想
welcomeWorld930919: 说的真好如果我在研一或者考验的时候看到这篇文章就好了。现在延毕的原因也是研究生三年没有好好思考自己的应该做什么，自己可以做什么，一直期待导师的帮助，浑浑噩噩过了3年。不过现在看到也不晚，从现在这刻开始努力。
一位计算机专业硕士毕业生的求职经历和感想
D_L_Young 回复 jackieShaw2: 多谢分享
一位计算机专业硕士毕业生的求职经历和感想
jackieShaw2: “而学术型硕士专门供给读完硕士后马上读博士的学术研究型人才和准备当教师的人才做中间跳板用”，悔之晚矣，不读博的话真是浪费3年大好青春。身边毕业后基本都是吃本科的老本，技术上已经没法和本科的同学比了。读研3年，实际给我们学理论，看论文，做实验的时间好像也就研二一年么。研一上课，研三准备找工作和搞毕设。就这点时间想毕业做和研究方向对口的工作太tm难了。要么继续读博，要么这3年拼命。还有选研究方向和导师前多看看各大招聘网站上的要求，别被搓方向给坑了。不要什么都等导师安排学习计划，多看点工作上有用的，少看国内乱七八糟期刊论文。血的教训啊
一位计算机专业硕士毕业生的求职经历和感想
晓飞趋势: 哎羡慕嫉妒恨

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。