熊猫/ scikit学习：get_dummies测试/训练集– ValueError：形状未对齐

最新推荐文章于 2022-05-20 13:21:42 发布

danpu0978

最新推荐文章于 2022-05-20 13:21:42 发布

阅读量752

点赞数 1

文章标签：机器学习 python 深度学习 tensorflow 人工智能

本文讨论了在使用Pandas的get_dummies函数处理分类变量时遇到的形状不匹配问题。通过将数据列转换为'类别'类型并确保训练和测试集具有相同的列集，可以解决这个问题。文章提供了详细的步骤和代码示例来演示如何正确处理训练和测试数据，以避免ValueError。

摘要由CSDN通过智能技术生成

我一直在使用panda的get_dummies函数来生成用于scikit-learn的分类变量的虚拟列，但注意到它有时无法按我预期的那样工作。

先决条件

import pandas as pd
import numpy as np
from sklearn import linear_model

从sklearn导入大熊猫作为pd导入numpy作为np

假设我们有以下训练和测试集：

训练集

train = pd.DataFrame({"letter":["A", "B", "C", "D"], "value": [1, 2, 3, 4]})
X_train = train.drop(["value"], axis=1)
X_train = pd.get_dummies(X_train)
y_train = train["value"]

train = pd.DataFrame（{“字母”：[“ A”，“ B”，“ C”，“ D”]，“值”：[1、2、3、4]}）

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

danpu0978

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

XAI/ML：机器学习模型可解释性之量化特征贡献度(特征重要性)的函数详解(feature_importances_/plot_partial_dependence/permutation_impor

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

05-29

3628

XAI/ML：机器学习模型可解释性之量化特征贡献度(特征重要性)的函数详解(feature_importances_/plot_partial_dependence/permutation_importance) 目录 1、feature_importances_函数 2、plot_partial_dependence函数 3、permutation_importance函数 1、feature_importances_函数简单来说，每个特征对于提升整个模型的预测能力的贡献

python做线性回归中出错type error_关于python：在SciKit线性回归上获取’ValueError：形状未对齐’...

weixin_39605191的博客

12-20

414

通常，对于使用Python的SciKit和线性代数/机器学习来说，这是相当新的，所以我似乎无法解决以下问题：我有一个训练集和一个数据测试集，其中包含连续值和离散/分类值。 CSV文件被加载到Pandas DataFrames中，并且形状匹配，分别为(1460,81)和(1459,81)。但是，在使用Pandas的get_dummies之后，DataFrame的形状将更改为(1460，306)和(1...

参与评论您还未登录，请先登录后发表或查看评论

pd.get_dumpies()方法分别调用导致训练集和测试集维度不同（未对齐）

m0_37620545的博客

11-23

2563

问题利用sklearn进行数据预处理，sklearn对列的排序很敏感，因此如果训练数据集和测试数据集未对齐，则结果将是无意义的。如果分类在训练数据中与测试数据具有不同数量的值，则可能发生这种情况。解决方法思路我们可以使用aligen命令确保住居的编码方式与训练数据相同，align命令确保列在两个数据集中以相同的顺序显示（它使用列名来标识每个数据集中的哪些列对齐。）参数join ='left...

【pandas】get_dummies对特征进行onehot encoder测试集特征的一致性等坑

momottyy的专栏

03-16

3597

在对分类特征进行处理时，我们经常会把这类特征转成独热编码（onehot）在sklearn中有OneHotEncoder，但是使用比较麻烦，万幸是pandas有对应的get_dummies pandas.get_dummies(data,prefix=None,prefix_sep='_',dummy_na=False,columns=None,sparse=False,drop...

python学习——pandas使用get_dummies,对无大小区分分类字段进行one-hot热编码

qq_23418043的博客

09-09

1426

参考博客： python中get_dummies实践 pandas使用get_dummies进行one-hot编码在数据集中，会有一些分类字段，比如衣服的大小(X,XL,M)，衣服的颜色(RED,GREEN),在进行训练的时候，我们肯定要让category变为nummerical表达形式。对于有大小区分的category，直接map就行了。如下： df = pd.DataFrame...

ValueError: shapes (a,b) and (c,d) not aligned: b (dim 1) != c (dim 0)问题分析与解决方案

热门推荐

带鱼工作室的博客

08-08

2万+

目录 1 问题提出 2 问题分析 3 解决方案 3.1 人为方法 3.2 机器方法 3.3 结合本nlp问题解决方案 1 问题提出首先来看下面这个错误：这个问题是使用机器学习的多项式贝叶斯函数做文本预测时出现的，抛开文本预测这个局限，当使用机器学习函数进行模型构建与预测时就会出现类似的错误：ValueError: shapes (a,b) and (c,d) not aligned: b (dim 1) != c (dim 0) 这个错误是机器学习中的一个通病，错误中的...

TFLite:使用1维CNN处理序列数据的过程

u011279649的专栏

07-11

3874

开发环境 tf.__version__ '2.0.0-beta1' tf.keras.__version__ '2.2.4-tf' 数据来源 http://www.cis.fordham.edu/wisdm/dataset.php 根据sensor数据x, y, z分类出Downstairs, Upstairs, jogging, sitting, standing, walking 6...

pragmatic-machine-learning：:high_voltage::money_bag:以务实的方式完成机器学习！

02-04

语用机器学习 机器学习以务实的方式完成！物镜（） Python 大熊猫脾气暴躁的 Matplotlib 海生 Scikit学习备忘单 Python 网页抓取脾气暴躁的可视化调色板大熊猫 Scikit学习模型评估演算法监督下 -对于小...

《Scikit－Learn_教學：Python_與機器學習_（Article）》

11-19

监督学习则是基于带有标签的数据进行训练，目的是预测新的未见过的数据。一个常见的例子是使用支持向量机(SVM)进行分类： ```python from sklearn import svm from sklearn.datasets import load_iris # 加载鸢尾...

sklearn数值特征离散值处理4: get_dummies()

sanjianjixiang的博客

11-11

959

import pandas as pd poke_df = pd.read_csv('Pokemon.csv', encoding='utf-8') poke_df[['Name','Generation']].iloc[4:10] gen_dummy_features = pd.get_dummies(poke_df['Generation'], drop_first=True) #去掉第...

pd.DataFrame()函数解析（最清晰的解释）

桐原因的博客

04-16

7505

DataFrame是Python中Pandas库中的一种数据结构，它类似excel，是一种二维表。链接：详解

深度学习笔记（pandas,spark,keras,TF关联小知识）

花木兰

10-16

394

label one-hot编码发现from keras.utils.np_utils import to_categorical 的to_categorical函数和pandas.get_dummies()实现的功能相同。都是对目标对象 one-hot编码 to_categorical(y, num_classes=None, dtype=‘float32’) def get_dummies...

numpy中向量和矩阵相关乘法总结

fate252的博客

05-16

4322

训练集产生的onehot编码特征如何在测试集、预测集复现

06-05

3246

数据处理中有时要用到onehot编码，如果使用pandas自带的get_dummies方法，训练集产生的onehot编码特征会跟测试集、预测集不一样，正确的方式是使用sklearn自带的OneHotEncoder。代码 import pandas as pd from sklearn.preprocessing import OneHotEncoder ohe = OneHotEncoder(handle_unknown='ignore') data_train=pd.DataFram...

错误：ValueError: shapes (4,4) and (1,4) not aligned: 4 (dim 1) != 1 (dim 0)

wawjb的博客

04-30

1万+

在使用 numpy重点矩阵和 array数组相乘的时候，经常会发生这个错误， import numpy as np d = np.array([[5,6,7,8]]) c = np.array([[1,2,3,4],[3,4,5,6],[4,5,6,7],[2,3,4,6]]) a = c.dot(d) print(a) 错误：ValueError: shapes (4,4) and (1,4...

[python编程] ValueError: shapes (33,) and (34,) not aligned: 33 (dim 0) != 34 (dim 0)

不行不至

08-17

1万+

在使用Python求矩阵的乘积时，报错显示：File “xxx.py”, line 59, in < module > y[t][0] = np.dot(r.T, b) ValueError: shapes (33,) and (34,) not aligned: 33 (dim 0) != 34 (dim 0) 低级错误…这是在计算两个矩阵的乘积时，两个矩阵每维大小...

pd.get_dummies的使用和疑惑解答

luckydog529的博客

05-20

3993

pd.get_dummies的使用参考pandas官网 pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None) 参数： data：array-like, Series, or DataFrame prefix:str, list of str, or dict of str, default None.St

Python机器学习实践：scikit-learn的有监督学习与Iris数据集

本文主要围绕有监督学习展开，这是一种机器学习方法，其中算法在训练阶段会接收到带有标签的输入数据（特征和相应的输出），然后在测试或预测阶段用于对新的、未标记的数据进行分类或回归。环境搭建是学习任何技术...