采样、哑变量

最新推荐文章于 2021-07-07 15:36:51 发布

dianhuo3832

最新推荐文章于 2021-07-07 15:36:51 发布

阅读量104

点赞数

原文链接：http://www.cnblogs.com/yongfuxue/p/10042343.html

版权

采样

df = DataFrame(np.arange(5 * 4).reshape((5, 4)))

sampler = np.random.permutation(5)

df表如下：

0 1 2 3

0 0 1 2 3

1 4 5 6 7

2 8 9 10 11

3 12 13 14 15

4 16 17 18 19

df.take(sampler)得到表如下：

0 1 2 3

1 4 5 6 7

0 0 1 2 3

2 8 9 10 11

3 12 13 14 15

4 16 17 18 19

由此可知take()使得df表的每一列按照sample作为索引进行采样

下面是一种有放回的抽样方式

bag = np.array([5, 7, -1, 6, 4])

sampler = np.random.randint(0, len(bag), size=10) #可以产生重复的索引值

draws = bag.take(sampler)

哑变量

df表如下

data1 key

0 0 b

1 1 b

2 2 a

3 3 c

4 4 a

5 5 b

经过pd.get_dummies(df['key']，prefix='key')处理后得到

key_a key_b key_c

0 0 1 0

1 0 1 0

2 1 0 0

3 0 0 1

4 1 0 0

5 0 1 0

转载于:https://www.cnblogs.com/yongfuxue/p/10042343.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dianhuo3832

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

哑变量数据转换，稀疏矩阵

YPL_ZML的博客

06-26

662

import pandas as pd import numpy as np # 类别数据转化 # 加载数据 detail = pd.read_excel('meal_order_detail.xlsx') # print(detail.columns) # 进行哑变量数据转换 --> 稀疏矩阵 # data = pd.get_dummies(detail['dishes_name']...

利用python进行数据分析第七章回顾笔记

louissssss6的博客

03-08

485

第七章，数据清洗与准备一，处理缺失数据对于数值数据，pandas使用浮点值NaN表示缺失数据（哨兵值），可以使用pandas.isnull()方法检测。常用的方法有dropna()对缺失数据进行过滤，fillna()用指定值或插值方法(ffill、bfill)填充缺失数据。滤除缺失数据的办法有很多种data.dropna()或者data[data[notnull()],dropna()会默认...

参与评论您还未登录，请先登录后发表或查看评论

Pandas：随机重排列和随机采样--permutation和take

bqw的博客

04-16

1万+

import numpy as np import pandas as pd from pandas import Series,DataFrame 一、随机重排列 df = DataFrame({'水果':['苹果','梨','草莓'], '价格':[7,8,9], '数量':[3,4,5]}) print(df) ...

python+数据过滤、清理、转换

三石

06-29

5778

python 数据过滤、清理、转换

大数据抽样- 概率抽样，随机采样

CWS_chen

02-26

2万+

在统计学中，抽样（Sampling）是一种推论统计方法，是指从目标总体（Population，或称为母体）中抽取一部分个体作为样本（Sample），通过观察样本的某一或某些属性，依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断，从而达到对总体的认识。概率抽样方法简单随机抽样（simple random sampling），也叫纯随机抽样。从总体N个单位中随机地抽取n个单位作为样...

python数据分析十六：pandas的面元划分和哑变量(get_dummies()、哑变量)

qq_27851579的博客

07-07

658

数学名词离散化和面元划分：就是分组，进行相应的计算对于数据进行离散化和面元划分的前提条件是：连续变化的数据例如下面是一组人的年龄数据，现在要按照年龄划分为不同年龄的4组（即把数据拆分为4个面元），分别为“18到25”、“25到35”、“35到60”及“60以上。为了实现分组，需要使用pandas的cut函数： pandas返回的是一个特殊的Categorical对象。你可以将其看作一组表示面元名称的字符串。实际上它含义一个表示不同分类名称的leve

python数据分析 Lending Club贷款数据

weixin_44039266的博客

03-29

660

一.sample() 随机抽样函数 loan.sample(n=3,axis=1,random_state=1，replace=True) #n=3 随即查看3列（默认为行） #axis=1可实现列采样 #random_state有时，我们希望重复调用某次采样的结果，我们可以设定random_state参数为同一个数来实现。 #replace=True又放回抽样（默认为不放回） loan.sample(frac=0.01) #抽取样本中的0.01% 二.选取指定数据 test_user = user.lo

利用Python进行数据分析之pandas数据转换（去重、替换、重命名、离散化和面元划分、检测和过滤异常值、排列和随机采样、计算指标/哑变量等）

reb0rn

09-17

1197

1、移除重复数据（1）duplicated显示重复行（默认判断全部列） data.duplicated() Out[18]: 0 False 1 True 2 False 3 False 4 True 5 False 6 True dtype: bool （2）drop_duplicates用于返回一个移除了重复行‘的DataFrame（...

R语言计量经济学：虚拟变量(哑变量)在线性回归模型中的应用

拓端研究室TRL

06-17

303

原文链接：http://tecdat.cn/?p=22805为什么需要虚拟变量？大多数数据都可以用数字来衡量，如身高和体重。然而，诸如性别、季节、地点等变量则不能用数字来衡量。相反，我们使用虚拟变量来衡量它们。例子：性别让我们假设x对y的影响在男性和女性中是不同的。对于男性y=10+5x+ey=10+5x+e对于女性y=5+x+ey=5+x+e。其中e是随机效应，平均值为零。因此，在y和x的真实...

用python实现数据转换，其中包括以下内容： 1）移除重复数据；2）利用函数或映射进行转换；3）替换数据；4）重命名轴索引；5）离散化和面元划分；6）检测和过滤异常值；7）排列和随机采样；8）计算指标/哑变量。

05-27

可以使用 pandas 库中的 get_dummies() 方法来进行哑变量编码。例如： ``` import pandas as pd df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': ['a', 'b', 'c', 'd', 'e']}) df_dummies = pd.get_dummies(df['...

python 离散化与面元划分

lixixi

01-28

826

# encoding=utf-8 import numpy as np import pandas as pd ### 离散化与面元划分 # 1 ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32] bins = [18, 25, 35, 60, 100] cats = pd.cut(ages, bins) # print 'cats:=

利用python进行数据分析学习笔记1(数据清洗和准备)

jianwulongquan的博客

06-24

3288

处理缺失数据创建一个含缺失值的Seriesstring_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado']) string_data.isnull()通过isnull方法返回一个布尔型Series，缺失值显示为True。通过索引可以将非缺失值设置为缺失值string_data[0] = None处理缺失数据的函数dropna，...

np.random.permutation()解析

热门推荐

weixin_44188264的博客

06-26

6万+

np.random.permutation()：随机排列序列。例1：对0-5之间的序列进行随机排序例2：对一个list进行随机排序多维度的咋回事？来看一个例子： a矩阵输出为：现在看c矩阵，我运行了两次：第一次运行结果：然后，我又运行了一次：通过这个例子可以看出，对于一个多维的输入，只是在第一维上进行了随机排序。对这个这个3×3矩阵来说，只是对行进行随机排序。 ...

python排列和随机采样permutation&sample

wj1298250240的博客

11-27

1104

python排列和随机采样permutation&sample ### Permutation and Random Sampling # 排列和随机采样 # 利⽤numpy.random.permutation函数可以轻松实现对Series或 # DataFrame的列的排列⼯作（permuting，随机重排序）。通过 # 需要排列的轴的⻓度调⽤permutation，可产⽣⼀个表示新...

np.random.permutation()函数的使用

zhlw_199008的博客

06-04

2万+

Permutation：（一组事物可能的一种）序列，排列，排列中的任一组数字或文字; 这个函数的使用来随机排列一个数组的，第一个例子如图1所示：图 1对多维数组来说，是多维随机打乱而不是1维，例如：第一次运行结果（代码在左侧），如图2所示：图 2第二次运行结果（代码在左侧），如图3所示：图 3如果要利用次函数对输入数据X、Y进行随机排序，且要求随机排序后的X Y中的值保持原来的对应关系，可以这样...

np.random.permutation生成随机序列

weixin_41043240的博客

03-17

3万+

numpy.random.permutation(x) Randomly permute a sequence, or return a permuted range. If x is a multi-dimensional array, it is only shuffled along its first index. Parameters: x : int or array_lik...

linux命令find实现_find.zip