使用R并行方式对数值型数据离散化

最新推荐文章于 2021-03-11 20:21:11 发布

hexiaosong

最新推荐文章于 2021-03-11 20:21:11 发布

阅读量8k

点赞数

本文链接：https://blog.csdn.net/hexiaosong/article/details/52270128

版权

本文介绍了使用R语言的discretization包进行数值型数据离散化，特别是在数据挖掘中，离散化有重要作用。文中详细阐述了有监督离散化的选择，并展示了使用mdlp()函数的例子。当数据量和维度增加导致处理时间增长时，文章提出通过并行计算优化，利用parallel包的parLapply()函数进行并行离散化，以提高效率。

摘要由CSDN通过智能技术生成

使用R并行方式对数值型数据离散化

数据的特征按照其取值可以分为连续型和离散型。离散数值属性在数据挖掘的过程中具有重要的作用。比如在信用卡评分模型中，当自变量很多时，并非所有字段对于目标字段来说都是有效的，因此通常的做法是通过计算woe值和iv值(类似于信息增益)来初步挑选通过对目标变量重要的字段，然后建模逻辑回归模型。而这当中就需要对数值型数据离散化。

数值型数据离散化通常分为有监督离散化和无监督离散化。考虑到数据建模通常是建立目标字段和其影响因素之间的关系的量化，因此会选择有监督离散化。

R语言中用于数值型数据离散化的包discretization。安装和加载如下：

>install.packages("discretization")
>library(discretization)

以R自带数据集iris为例，以”Species” 为目标字段，对”Sepal.Length”、”Sepal.Width”、”Petal.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hexiaosong

关注关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

R语言-数据离散化与合并对象

炫炫有牛腩的博客

08-04

6104

cut函数cut函数可以快速的将连续型数据转变成离散数据。基本形式：cut(x, breaks, labels = NULL, include.lowest = F, right = T, dig.lab = 3, ordered_result = F)参数含义：参数描述 x 数值向量 breaks 指定分割点的数量的整数，或者制定分割点位置的向量 l

python 离散化_利用Python将数值型特征进行离散化操作的方法

weixin_39981681的博客

11-28

981

利用Python将数值型特征进行离散化操作的方法如下所示：data = np.random.randn(20)factor = pd.cut(data,4)pd.get_dummies(factor)0000111000200013001041000501006010070100800109010010000111010012010013001014001015010016010017100018...

1 条评论您还未登录，请先登录后发表或查看评论

数值型和标称型数据、数据离散化

weixin_41298166的博客

05-22

549

标称型：一般在有限的数据中取，而且只存在‘是’和‘否’两种不同的结果（一般用于分类）数值型：可以在无限的数据中取，而且数值比较具体化，例如4.02,6.23这种值（一般用于回归分析）使用数值型数据做标称型数据的工作时，必须将数值型数据离散化。关于离散化，可参考https://www.cnblogs.com/jiaxin359/p/8574510.html ...

进行数据离散化的原因_数据挖掘--变量值离散化处理

weixin_39970166的博客

12-08

1024

为提高数据挖掘中海量数据的处理效率,通常要对连续数值型变量进行离散化处理，减少变量取值个数以实现样本量的缩减;有的数据挖掘方法不支持对数值型变量的分析，也需要进行离散化处理。离散化处理统计主要采用变量值分组方法，数据挖掘中称其为分箱，应通过Field Ops卡中的Binning节点实现分箱。常用的分箱方法一、组距分组组距分组是统计中实现分箱的最基本方法，包括不等距分组和等距分组。例如之前提到的学生...

数据离散化的两种方法

小白菜的博客

11-17

6461

为什么要离散化？现在给出这样的一个问题，有1e5个数，每个数的范围在-1e18至1e18之间，有1e5次询问，每次有一个k，询问第k大的数字出现的次数。当然，第一想法是用map解决，但是掐指一算复杂度，用map计数以后，对于每一次询问，都需要对map进行一遍遍历，显然复杂度过不去。这时候我们注意到，对于这个问题，我们要关心的只是数据间的大小关系，而不是具体的数值，所以我们只需要将其一一映射即...

基于GPU的杆系离散元并行算法在大型工程结构中的应用.pdf

09-25

接着，作者使用大型三维框架和球壳结构模型对提出的并行算法进行了验证，结果显示，杆系DEM并行算法不仅保持了较高的计算精度，而且在计算性能方面表现出色，加速比最高可达12.7倍。这意味着相对于传统单线程计算，...

层流扩散燃烧在GPU上的并行计算和数值分析.pdf

09-25

总的来说，这篇论文详细阐述了如何利用GPU的并行计算能力来优化层流扩散燃烧的数值模拟，包括离散化方程、选择合适的求解器以及实现并行算法。这一研究对于推动燃烧学领域的数值模拟技术发展，以及提高工程计算效率...

为什么将连续性特征离散化？

qq_45734454的博客

11-08

1845

在学习机器学习中，看过挺多案例，看到很多人在处理数据的时候，经常把连续性特征离散化。为此挺好奇，为什么要这么做，什么情况下才要做呢？一、离散化原因数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。连续特征离散化的本质是：决定选择多少个分割点和确定分割点的位置。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点： 1、算法需要比如决策树、朴素贝叶...

特征离散化

FigthingForADream的博客

08-05

2032

为什么需要离散化 对于很多实际问题（如广告点击率预测），往往特征非常多，这时候时间约束通常不允许我们使用很复杂的非线性分类器。这也是为什么算法发展这么多年，广告点击率预测最常用的方法还是LR模型。在实际应用中，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，除了一些加快计算等好处，还可以引入非线性特性，也可以很方便的做交叉特征。离散特征的增...

Contract:CUTP合同

05-06

合同银联代币合约安装 npm install 开发人员 npm run watch 测试 npm run test

cutpftp6.0Professional Build 12.23.2004.1

02-09

CuteFTP是小巧强大的 FTP 工具之一，友好的用户界面，稳定的传输速度，其自带了许多免费的 FTP 站点，资源丰富。

python

m0_37425558的博客

03-11

258

报错ModuleNotFoundError: No module named ‘mdlp.discretization’; ‘mdlp’ is not a package 可能是在文件夹下的python文件中import其他包（from mdlp.discretization import MDLP）最终在anaconda装了python3.6后，在pycharm的解释器改为python3.6后，anaconda prompt中执行pip install mdlp-discretization后成功解决装

【汇】连续变量的常用分箱测试方法：等频、等距、best_ks、卡方

Toby的博客

07-24

4567

分箱的基评估标准是依靠WOE与IV值，常用的方法是等频、等距、best_ks、卡方。决策树里对于连续值采用信息熵、信息增益率、方差、基尼系数等来进行拆分的选择。它们本质上是一样的，都是为了寻找最佳的拆分方式，具有最好的表达能力。只不过一个不是用模型能力表现，一个是用模型能力表现。等频分箱对连续变量从小到大排序，使用频次百分比qcut分割的方式对连续变量进行分箱，使得每个区间具有数量相同的样本量。等距分箱对连续变量从小到大排序，将取值区间等分成N等份，样本根据其取值落到对应的分箱中。

Python基础之四：Python3 基础数据类型

qq_35092730的博客

10-20

608

Python基础之三：Python3 基础数据类型一、数据类型简介我们人类作为高级生物，可以很容易区分数据类型，但是计算机不能，计算机虽然很强大，但从某种角度上看又很傻，除非你明确的告诉它，什么是数字，什么是字符串，否则它是分不清数据之间的区别的，因此，在每个编程语言里都会有一个叫数据类型的东西，其实就是对常用的各种数据类型进行了明确的划分，你想让计算机进行数值运算，你就传数字给它，你想让他处理文字，就传字符串类型给它。二、Python3中的基础数据类型简介 Python3中的基础数据类型共6种，分别

MDLP 详解

阿塔的技术摸索之路

11-25

3834

MDLP 论文解析前言Introduction二分离散（Binary Discretization）算法推广最小描述长度应用：a coding problem 前言学习这个离散化算法的契机是因为身边有个朋友过来问，但网上相关资料又不太多，所以只能死磕论文。具体的论文是：Multi-Interval Discretization of Continuous-Valued Attributes f...

kafka生产者与消费者详细架构

tyh1579152915的博客

11-15

1086

参考链接： https://blog.csdn.net/LeoHan163/article/details/105902707 https://developer.aliyun.com/article/763602 1、生产者工作流程在生产者将消息发送出去之前，需要经历拦截器（Interceptor）、序列化器（Serializer）和分区器（Partitioner）等一系列的作用，随后才真正进入发送消息发送流程。整个生产者客户端由两个线程协调运行，这两个线程分别为主线程和Sender线程

分计算iv值_算法篇-woe和iv详解

weixin_39599317的博客

12-23

1954

woe和iv最早来自金融界，主要用来计算自变量与因变量的相关性，在筛选变量、验证新变量的效果上有不错的效果，可以当做一个参考指标衡量变量所包含的信息量。1. 什么是woewoe是weight of evidence的简称，用来衡量自变量与因变量的相关性试想我们当前处理的是一个二分类问题共100条记录，一个自变量只有两个值v1, v2。v1有50条记录，其中40条对应label 1，另外10条对应l...

分计算iv值_特征锦囊：彻底了解一下WOE和IV

weixin_39628380的博客

11-27

1199

今日锦囊特征锦囊：彻底了解一下WOE和IV第一次接触这两个名词是在做风控模型的时候，老师教我们可以用IV去做变量筛选，IV(Information Value)，中文名是信息值，简单来说这个指标的作用就是来衡量变量的预测能力强弱的，然后IV又是WOE算出来的。姑且先不管原理哈，我们先给出来一下结论。IV范围变量预测力<0.02无预测力?0.02~0.10弱?0.10~0.30中等?...

多核并行稳健结构化多前向分解法：大型离散PDEs的高效求解策略

本文主要探讨了在大型离散偏微分方程（PDEs）求解领域中的多核并行处理技术，特别是针对结构化的多前缀分解（Structured Multi-frontal Factorization，SMF）方法进行优化。标题《Multi-core parallel robust ...