数据分析预处理 -字符型类别变量（string）

最新推荐文章于 2023-08-05 01:28:50 发布

Poisson_SHAN

最新推荐文章于 2023-08-05 01:28:50 发布

阅读量4.8k

点赞数 5

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/Poisson_SHAN/article/details/108894118

版权

本文探讨了在数据分析中遇到的字符型类别变量（如字符串）的预处理方法。针对有序（如衣服尺码）和无序（如衣服颜色）的类别数据，分别介绍了使用map函数转换和独热编码（One-Hot Encoding）的处理方式。对于无序类别，通过独热编码避免了强加大小关系，并提到了LabelEncoder和OneHotEncoder的使用，以及pandas的get_dummies函数作为替代选项。

摘要由CSDN通过智能技术生成

在数据分析时，会遇到一些非数值型的类别变量，例如字符串类型（string）。比如，西瓜的色泽：青绿、浅白、乌黑等等…直接放在svm、决策树或者贝叶斯分类器时，不方便处理，也直接套用sklearn中的内置算法。因而在预处理时需要对他们做相应的处理。

一般可以把类别数据分为：无序和有序两类。
有序：比如衣服尺码，S、M、L、XL，是有大小的；再比如拥堵指数，数值由0变化到4随拥堵加剧
无序：比如衣服颜色，黑、白、黄、蓝、绿，是没有大小（优劣）序列的类别

（1）有序序列

我们可以用map函数，将字符型类别替换成有大小顺序的数值。

# 定义一个DataFrame数据
data = pd.DataFrame([
["green", "S", 100,"label1"],
["blue", "M", 110,"label2"],
["red", "X", 120,"label3"],
<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Poisson_SHAN

关注关注

5
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

R语言使用table函数统计dataframe数据中特定数据列（分类变量、字符串变量、因子变量）的内容的统计计数

statistics+insight+vista+power

04-19

496

R语言使用table函数统计dataframe数据中特定数据列（分类变量、字符串变量、因子变量）的内容的统计计数

DataFrame之数据清洗与预处理秘籍

最新发布

程序员光剑

05-23

1102

DataFrame之数据清洗与预处理秘籍作者：禅与计算机程序设计艺术 1. 背景介绍 1.1 数据科学中的数据预处理 在数据科学领域，数据预处理是整个数据分析流程中至关重要的一环，其重要性不亚于模型训练和

1 条评论您还未登录，请先登录后发表或查看评论

机器学习中常见的字符串操作（python）

winnertakeall的博客

04-29

1599

通常在读取一个文件的内容的时候，要对里面的内容进行相应的处理。所谓内容就是相应的字符串1.strip()方法中，就是对字符两端的空格进行删除。2.split()方法中，是对处理的字符串按照某种方式进行相应的分割，并以列表的方式返回。3.len()方法中，对列表里面的数据进行相应的统计。...

【算法】字符串分类

华仔的逆袭的专栏

03-25

2029

题目：字符串分类，两个字符串A和B属于同一类需要满足以下条件： A中交换任意位置的两个字符，最终可以得到B，交换的次数不限。比如：abc与bca就是同一类字符串。输入：首先输入一个正整数N（1 <= N <= 50），接下来输入N个字符串输出：输出一个整数表示分类的个数。例子： 3 abc bca cab 1 解题要点：需要抓住同类字符串的共同点（含有

6.字符型数据及其处理

Rabbit_0221的博客

11-04

463

R的数据类型与相应运算6 字符型数据及其处理6.1 字符型向量6.2 paste()函数6.3 转换大小写6.4 字符串长度6.5 取子串6.6 类型转换6.7 字符串拆分6.8 字符串替换功能6.9 正则表达式（学习资料参考北京大学李东风老师《R语言教程》） 6 字符型数据及其处理 6.1 字符型向量字符型向量是元素为字符串的向量。如： s1 <- c('abc', '', 'a c...

字符串变量处理方式代码示例

Paul_YQ的博客

02-24

303

#include <iostream> using namespace std; int main() { char ch[80] = "Welcome to C++ programming world!"; int i = 0; while (ch[i] != '\0') i++; cout << "字符串" <&l...

【转载】数据预处理

lhl306247的博客

07-05

344

转自最全面的数据预处理介绍 - 知乎 (zhihu.com)写这篇文章的原因是前段日子看了很多机器学习书籍，发现各种书籍对具体机器学习算法介绍非常详细，而在实际应用中非常重要的一环——数据预处理介绍很少或者不完整。于是整理了一下。本文主要介绍详细处理流程以及这样处理的原因，对于处理方法的原理介绍较为简略。当然，想深入了解原理可以根据这份框架深入研究思索，将框架和细节一起把握。数据是机器学习的原料，在把数据投入机器学习模型前，我们需要对数据进行加工。就像榨果汁，得先把水果削皮切小块了才可以投入榨汁机中，否则倒

文本挖掘（四万字总结篇：爬虫 - 文本预处理 - 高频词统计 - 聚类 - 情感分析）

热门推荐

qq_45587352的博客

07-29

1万+

文本挖掘、K-means、word2vec

数据转化技术介绍：数据预处理将原始数据转换为可被模型接受的形式，这个过程称之为数据预处理（Data Pre-processing）

程序员光剑

08-05

1180

数据处理是人工智能领域中一个非常重要的环节，而数据转化可以说也是数据预处理的一部分。数据转化是指从原始数据（Data）到机器学习模型所需要的数据格式（Representation）。在机器学习过程中，输入数据往往不能直接用于训练模型，需要经历一定的数据处理才能被模型接受。数据转化的目的就是将原始数据转换为可被模型接受的形式，这个过程称之为数据预处理（Data Pre-processing）。数据转化又分为离线数据转化和在线数据转化两类。

Python数据分析与挖掘实战总结

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

02-05

1万+

大数据专业硕士在读，CSDN人工智能领域博客专家，阿里云专家博主，专注大数据与人工智能知识分享。🎉。

文本分类模型处理流程

persistinlife的专栏

02-16

645

文本分类模型处理流程 1.样本整理 2.数据预处理 直接按照字符处理可以使用keras的api Tokenizer(char_level=True) 建立字符数字索引 text_to_sequences() 将句子转成数字 pad_sequences() 将句子填充到相同长度分词 jieba hanlp等（对于项目里特殊的词汇，可以手动加到分词词库里）用其他公司训练的词向量自定义词...

pandas ------ 文本类型数据处理

疯子书生的博客

05-06

997

目录1. string类型的性质1.1. string与object的区别2. string类型的转换2.拆分与拼接2.1. str.split方法2.2. str.cat方法3.替换3.1. str.replace的常见用法3.2. 子组与函数替换4.子串匹配与提取4.1. str.extract方法4.2. str.extractall方法4.3. str.contains和str.match...

sklearn的决策树能够处理字符串数据吗吗？

围城

12-29

4975

20201229 - 引言我记得很久之前我曾经遇到过这种问题，一开始我还很纳闷，一般情况下，输入到分类器的数据应该都是数值型的，对于字符串型的他应该处理不了，但是当时我却得出了结论，sklearn中的决策树，能够帮助我讲这些数据处理。但是，我感觉，可能是有一些记忆的偏差。那么这里就来具体描述一下。问题问题来源于，最近处理一部分数据的时候，因为数据中含有标签类型的数据，但是直接输入到决策树模型中，sklearn中居然报错了，很费解，因为基于我之前的认知，决策树应该帮我把这部分编码好了，而且从决策树的

java中string什么意思_java中String对象和String变量

weixin_33510225的博客

02-22

329

最近在论坛上看到关于String s = new String("XYZ") + newString("XYZ");到底创建几个对象的讨论，觉得比较有意思，在此总结一下。在JAVA中除了8种基本类型之外，其他的都是类对象及其引用。所以"XYZ"在JAVA中是一个String对象，对于String类对象来说它的对象值是不能修改的，也就是具有不变性。但是在下面一段程序中：publicclassTest...

sklearn处理有String类型的数据

qq_37411980的博客

04-04

3507

sklearn处理有String类型的数据因为老师给的数据中既有数值型也有字符串类型的数据，用sklearn的时候会有"ValueError: could not convert string to float"的错误，意识到sklearn能直接处理的只有数值型的数据，花了一下午时间终于找到了一些一些解决方法。附上链接：数据预处理 sklearn的决策树能够处理字符串数据吗一个讨论帖最后自己的实现代码如下： import graphviz import pandas as pd from skl

1-2Python 入门之字符串处理

Sa_sa_ki_Haise的博客

08-23

1910

第1关：字符串的拼接：名字的组成 100 任务要求参考答案评论247 任务描述相关知识编程要求测试说明任务描述本关任务是将两个不同的字符串，拼接形成一个字符串，并将新字符串输出来。字符串或串（String）是由数字、字母、下划线组成的一串字符。在 Python 中，字符串用单引号或者双引号括起来。在很多情况下，我们需要将两个字符串拼接起来，形成一个字符串。例如，一个人的姓名，通常是由“姓氏”+“名字”组成的。在很多程序中，为了方便后续处理，通常将姓氏和名字分别存在两个变量中。

机器学习中七种常用的类别变量编码方法

白话机器学习

04-23

3437

关注”AI自研社“公众Hao，回复“编码”即可获得本文完整源码。 机器学习一般仅对数字特征有好，无法直接利用类别特征进行学习，一般我们在将数据输入算法进行训练前需要对类别特征进行编码处理，将其转换成数字特征。本文将为大家精心整理七种常用的类别特征的编码方法。在具体介绍前，我们还是先创建好用于演示的数据集。 import pandas as pdimport numpy as npdata = { 'Temperature':['Hot','Cold','Very Hot','Wa...

数据预处理（三）：字符型特征处理

weixin_42189966的博客

06-16

6280

离散特征编码一、介绍 1.原因逻辑回归、svm、k近邻等算法只能处理数值型数据，而不能处理文字，因此有时候我们应对文字型数据进行编码，转化为数值型数据。在sklearn中，除了专用于处理文字的算法，其他算法输入数据时全部要求输入数组或矩阵，不能导入文字型数据。 2.两种编码方式当分类变量的取值之间有大小意义时，如【小学、初中、大学】，可以将其编码为【0,1,2】。当分类变量的取值 ...