简单的数据清洗

最新推荐文章于 2024-09-09 00:01:32 发布

老白菜c

最新推荐文章于 2024-09-09 00:01:32 发布

阅读量179

点赞数

分类专栏：实习学习文章标签： python

本文链接：https://blog.csdn.net/qq_49130527/article/details/120867890

版权

本文介绍了在数据清洗过程中遇到的产品名称、申报人和申报单位的规范化问题。针对产品名称，通过split方法去除特定前缀；对于申报人和申报单位的不统一格式，采用正则表达式进行匹配和切割，简化信息。虽然未处理特殊情况，但整体思路简洁实用。

摘要由CSDN通过智能技术生成

初始数据：
在这里插入图片描述

数据要求如下：
在这里插入图片描述
1.产品名称的类型是1182_产品测试-张三-0622，然后开始以为直接用正则匹配就完事了，后来得知要去掉_前面的就ok，那直接split就完事了。
2.申报人和申报单位，这两列真的是鱼龙混杂，大概的格式有以下几种：

张三第1申报人张三第一申报人张三第申报人且有顺序打乱的，以及多个重复位置的申报人，如4个第二申报人（这里处理并没有处理这种少量数据，这个直接后期该就OK）

申报单位和申报人大概的情况是一样的，所以运用一个函数就能解决。

def clean_type(type, data):
    
    num_list = ['1', '2', '3', '4', '5', '一', '二', '三', '四', '五', '']

    list = data.split(

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

老白菜c

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

数据清洗与数据建模：如何利用数据清洗优化数据建模

AI天才研究院

06-13

883

在数据科学和机器学习领域，数据清洗和数据建模是两个至关重要的步骤。数据清洗是指通过一系列技术手段对原始数据进行处理，以提高数据质量和一致性。数据建模则是利用清洗后的数据构建数学模型，以便进行预测、分类或其他分析任务。高质量的数据是成功建模的基础，因此，数据清洗在数据建模过程中起着至关重要的作用。数据清洗是指通过检测和修正数据中的错误、缺失值和不一致性来提高数据质量的过程。数据清洗的目标是确保数据的准确性、一致性和完整性，从而为后续的数据分析和建模提供可靠的基础。

docker swarm 数据卷操作

weixin_43931625的博客

08-23

746

dockerswarm数据卷操作

参与评论您还未登录，请先登录后发表或查看评论

简单数据清洗

weixin_38391357的博客

11-27

205

数据清洗代码清理或者使用OpenRefine开源软件代码清理转义字符\n Unicode字符剔除单字符单词引用标记标点符号 input = re.sub('\n+', " ", input) input = re.sub('\[[0-9]*\]', "", input) input = re.sub(' +', " ", input) input = byt...

机器学习：数据预处理--数据清洗

最新发布

纸上得来终觉浅

09-09

1659

数据预处理--数据清洗，空缺数据填充

数据清洗 简单流程

hello world

07-18

638

1.导包，没什么说的： import numpy as np import matplotlib from pandas import Series,DataFrame import pandas as pd import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签 plt.rcParams['axes.unicode_minus']=False #用来正常显示负号 2..

数据简单的清洗处理

Cody_hong的博客

12-01

470

有时文件数据较大时，csv转excel会发生数据丢失，这时候可以利用python对数据进行简单的校验处理 #!/usr/bin/env python ''' 文件类型 province,city,district,year,month,day,carrier, in_num,out_num,dwell_num 河北省,秦皇岛市,海港区,20180816,3289.0-1132.0-1167....

用编程方法进行数据清理

明顯有閒

05-11

1263

用编程方法进行数据清理 Programmatic Data Cleaning: 1. Define 2. Code 3. Test 步骤一: 定义(Dfine) 确定处理问题的方案，并以文字形式记录下来。步骤二：代码(Code) 然后，将这些文字转化为代码。步骤三：测试(Test) 最后，检验数据，看代码是否奏效。...

08-05

05-30

swx7410852963的博客

01-05

1470

MapReduce 简单数据清洗

Python pandas 数据清洗 基础教程

01-15

Python pandas 数据清洗基础教程 Python pandas 是一个非常流行的数据处理库，它提供了许多强大的功能来处理和分析数据。在数据处理过程中，数据清洗是一个非常重要的步骤，它可以帮助我们将原始数据转换为可以用于...

6-1 数据清洗

XZDouble的博客

11-24

646

6-1 数据清洗

数据清洗实战入门——常用数据结构

Superpig的博客

01-19

300

numpy常用数据结构——ndarray 实质：矩阵/n维数组创建方法： array(列表/元组)：不指定数据类型：np.array([1,2,3]) => [1,2,3] 指定数据类型：np.array([1,2,3],dtype=str/float/int) 创建多维数组：使用嵌套列表：np.array([[1,2],[3,4],[5,6]]) 使用arange：np.arange(a,b,s) #a为起始值，b为终止值，s为步长，左闭右开，不包含终止值创建等差数列：np.

数据探索与数据清洗

hllingg的博客

01-24

979

一数据探索数据探索的目的是及早的发现数据的一些简单规律或特征,数据清洗的目的是留下可靠的数据,避免脏数据的干扰. 数据探索的核心是: 数据质量分析(跟数据清洗密切联系) 数据特征分析(分布,对比,周期性,相关性,常见统计量等) 二 数据清洗 数据清洗可以按如下步骤进行缺失值处理(通过describe与len发现,通过0数据发现) 异常值处理(通过散点图发现) 异常值处理(通过...

数据清洗——初级案例整理

每一次跌倒，都是为了下一次站得更稳。

07-30

5547

文章目录一、快餐数据1.1 探索数据1.1.1 数据表一共多少行数据？有多少列1.1.2 是否存在缺失值？哪个字段？1.1.3 数据去重操作1.2 描述性统计1.2.1 被下单数最多的前五的商品(item_name)有哪些？1.2.2 在item_name这列中，一共有多少商品被下单？1.2.3 商品下单总数量是多少？1.2.4 目前item_price数据类型为？如何转换为浮点数？1.2.5 在该数据集对应的时期内，收入(revenue)是多少？1.2.6 在该数据集对应的时期内，一共有多少订单？1.2.

数据分析-简单实用的数据清洗代码整合

Mind_programmonkey的博客

08-15

1457

数据清洗代码整合 1 删除多列数据有时，并不是所有列都对我们的分析有用。因此，df.drop函数是一个得心应手的工具去移除指定的列。 def drop_multiple_col(col_names_list,df): df.drop(col_names_list,axis=1,inplace=True) return df 2 改变数据类型当一个数据集变大时，我们需要改变d...

C语言解决数值处理问题

minghaibuai的博客

04-18

216

1.什么是数值处理问题？主要针对数据进行各种处理的相关问题，如:求任一整数的位数;求任一整数各位数字之和;将任一整数各位数字输出;求两个整数的最大公约数或最小公倍数；求整数因子或完数。 2.怎么求解数值处理问题？用循环。例题1：求任一整数各位数字之和。 #include <stdio.h> int main() { long n;/*定义n为长整型*/ int m,s=0; scanf("%ld",&n); while(n!=0) { m=n%10;

数据清洗的一些梳理

简单的数据清洗

张三第1申报人 张三第一申报人 张三第申报人 且有顺序打乱的，以及多个重复位置的申报人，如4个第二申报人（这里处理并没有处理这种少量数据，这个直接后期该就OK）

张三第1申报人张三第一申报人张三第申报人且有顺序打乱的，以及多个重复位置的申报人，如4个第二申报人（这里处理并没有处理这种少量数据，这个直接后期该就OK）