csv文件数据清洗

最新推荐文章于 2024-06-20 12:17:33 发布

dongjiaowei5004

最新推荐文章于 2024-06-20 12:17:33 发布

阅读量3.8k

点赞数 1

文章标签： python

原文链接：http://www.cnblogs.com/itljx/p/11297870.html

版权

本文介绍了一次CSV文件的数据清洗过程，主要使用Python的pandas和正则表达式。针对176条数据，目标是删除包含实习信息的全职职位，并通过正则表达式从字符串中提取数值，计算工作经验平均值和工资范围的前25%。在处理过程中，解决了CSV文件因中文文件名导致的编码问题。

摘要由CSDN通过智能技术生成

一、需求：

对爬取的csv文件进行数据清洗

运用内容：pandas、正则表达式

二、简单分析：

共176条数据

其中，分析目标以全职为准，但职位名称包含实习信息，需要删除掉。

数据方面：csv保存格式为str，运用正则表达式提取数值工作经验去平均值，工资按市场情况，取工资范围前25%。

三、代码：

import pandas as pd
df = pd.read_csv('lagou8.4jobs.csv',encoding=

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dongjiaowei5004

关注关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python数据清洗---实战案例（清洗csv文件）

SmallSweets的博客

04-13

4万+

我也是最近才开始这方面的学习，这篇就当作学习的笔记，记录一下学习的过程所要处理的数据数据中主要存在的问题主要包括： 1.列名中存在空格 2.存在重复数据 3.存在缺失数据下面开始对数据进行清洗导入pandas模块，打开数据文件 import pandas as pd df = pd.read_csv("ResourceFile.csv") 我们输出指定列名 print(df.名称) 但此时会报错，因为列名"名称"中含有空格，我们输出列名看一下，两种方法方法一： print(df.des.

python学习笔记(关于CSV文件的数据清洗）

qq_43350424的博客

01-18

6258

1、读取CSV文件 data = pd.read_csv(r'.\') 2、看数据大致情况 data.info() 3、当表很大的时候想看表长什么样子 data.head(n)#显示前n行 4、删除表的若干列 data.trop(['aaa','bbb','ccc'],inplace = True,axis = 1)#删除表头为aaa,bbb,ccc的列，inplace = True并用后来的表去覆盖前面的表 5、用均值填补缺失值 data['age'] = data['age'].fillna(d

参与评论您还未登录，请先登录后发表或查看评论

Python数据分析：数据清洗实操+实操案例：电商用户数据清洗

最新发布

2301_81446229的博客

06-20

1878

数据分析是现代商业决策的核心，而数据清洗则是确保分析结果准确性的关键步骤。本文将介绍使用Python进行数据清洗的基本方法和一些实用的技巧。在数据分析过程中，原始数据往往存在各种问题，如缺失值、重复记录、异常值或格式不一致等。这些问题如果不解决，将直接影响分析结果的准确性和可靠性。数据清洗的目的是确保数据的质量和一致性，为后续的数据分析打下坚实的基础。在开始数据清洗之前，我们需要准备Python环境。通常，我们会使用以下库：pandas：用于数据处理和分析。numpy：提供数学运算功能。

数据清洗 & 预处理入门

qq_64334741的博客

11-13

323

假如我们数据中有一列动物年龄，范围是 4~17，还有一列动物价值，范围是83,000。价值一栏的数值不仅远大于年龄一栏，而且它还包含更加广阔的数据范围。这表明，欧式距离将完全由价值这一特征所主导，而忽视年龄数据的主导效果。如果欧式距离在特定机器学习模型中并没有具体作用会怎么样？缩放特征将仍能够加速模型，因此，你可以在数据预处理中，加入特征缩放这一步。特征缩放的方法有很多。但它们都意味着我们将所有的特征放在同一量纲上，进而没有一个会被另一个所主导。

CSV格式数据清洗附件data.csv

12-22

此文件为Python 123 平台 Python语言程序设计练习7：文件与数据格式化的CSV格式数据清洗附件

第7周 CSV格式数据清洗

weixin_52120741的博客

07-05

5821

数据清洗之 csv文件读写

12-21

csv文件读写 pandas内置了10多种数据源读取函数，常见的就是CSV和EXCEL 使用read_csv方式读取。结果为dataframe格式在读取csv文件时，文件名称尽量是英文参数较多，可以自行控制，但很多时候用默认参数读取csv时，注意编码，常用编码为utf-8、gbk、gbk2312和gb18030等使用to_csv方法快速保存 import numpy as np import pandas as pd import os os.getcwd() 'D:\\Jupyter\\notebook\\Python数据清洗实战\\数据清洗之文件读写' os.chdir('D

python123.io---CSV 格式数据清洗

liiuyizeliuyize的博客

03-14

2350

python123.io---CSV 格式数据清洗

csv数据文件清洗【DataFrame】

留歌__36的博客

03-07

1476

package march.sql import org.apache.spark.sql.SparkSession /** * Description: TODO * * @Author: 留歌36 * @Date: 2019/3/6 8:57 */ object AllHouseAPP { def main(args: Array[String]): Unit =...

学习笔记(05):Python数据清洗实战-csv文件读写

01-20

数据清洗之文件操作读取：csv文件实用read_csv方法读写，结果为dataframe格式读写csv文件，文件名称用英文参数较多，可以自行控制，很多使用默认参数读csv，常用编码utf-8,gbk,gbk2312,gb18030 实用to_csv...

Pandas入门2：CSV文件读写以及数据清洗常用函数介绍

GUNNNNNNN的博客

04-07

1324

可以看出pd.read_csv读取的文件会把什么都没有的单元格忽略，而写有NA或者N/A的数据读取为空值(NaN也可以，而NAN会被认为是有数据的），通过isnull（）判断后会将空值显示为True。Pandas使用 mean()、median() 和 mode() 方法计算列的均值（所有值加起来的平均值）、中位数值（排序后排在中间的数）和众数（出现频率最高的数）。也可以移除指定列有空值的行：(这样就只会在这一行中找空值，找到就删掉这一行，其他行不会找了）输出结果如下：1和2也为空值了。

Python应用：基于CSV文件的建表和数据清洗

dlmyang的博客

04-27

1049

后来数据量变大，excel加载都比较困难，动不动就崩，且excel对长数字不友好，不是被转换成科学记数法，就是后几位变成0，每次碰到这样的问题还得单个处理，很是耗时。在这个脚本中，你首先为表名添加了双引号（这是Oracle数据库的要求），然后为每列生成了相应的列定义。数据库我选择了DM8，它在功能性、友好性、安全性、拓展性上表现均不俗，有人说它是Oracel的国产化替代产品，就用户体验来说，确是如此。对于NaN和'.0'的替换，你可能需要首先确定每列的数据类型，然后只对字符串类型的列进行替换。

Python程序设计题--CSV格式数据清洗

m0_63309974的博客

05-24

628

chatgpt赋能python：Python数据清洗：如何用Python清洗CSV文件数据

shengcaiy123的博客

06-23

1121

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

数据清洗

Be Young，Be Curious，Then You'll be Lucky!

04-28

1900

数据清洗我们拿到的数据通常并不那么完美，像这样一份“脏乱差”数据需要如何清洗呢？ excel下载地址：http://pan.baidu.com/s/1nvsMQJB在清洗之前，首先需要明确我们清洗的目标，例如图中的数据：老板的期望是——需要一份电话号码清单。那么，我们只需要保留“ID”、“姓名”、和“电话号码”就足够了。其中ID作为这个人的唯一标识符存在。让我们一起看看，这个数据涉及以下特点：

【Python 123】CSV格式数据清洗

热门推荐

记录专业模型开发、算法程序设计、软件学习笔记、生活日志。

12-22

1万+

CSV格式清洗与转换

ziyi813的博客

11-12

2445

CSV格式清洗与转换（1）按行进行倒序排列；（2）每行数据倒序排列；（3）使用分号（;）代替逗号（,）分割数据，无空格； f = open('data.csv', 'r', encoding='utf-8') lslist = [] for line in f.readlines(): line = line.strip("\n").replace(" ","") # 去除空格 data = ";".join(line.split(",")[::-1]) lslist.insert(0,d

python对csv文件数据清洗

07-28

在Python中，可以使用pandas库对CSV文件进行数据清洗。首先，可以使用pandas的read_csv函数读取CSV文件，并将其存储为DataFrame对象。然后，可以使用DataFrame的各种方法进行数据清洗操作。以下是一些常用的数据清洗操作示例： 1. 删除指定行或列的数据：可以使用dropna方法删除包含缺失值的行或列。例如，df.dropna(axis=0)将删除包含缺失值的行，df.dropna(axis=1)将删除包含缺失值的列。 2. 填充缺失值：可以使用fillna方法填充缺失值。例如，df.fillna('miss')将缺失值填充为字符串'miss'，df.fillna(5)将缺失值填充为数字5。 3. 根据条件筛选数据：可以使用条件语句对DataFrame进行筛选。例如，df\[df.white > 1\]将筛选出white列中大于1的行，df\[(df.blue > 1) & (df.green > 3)\]将筛选出blue列大于1且green列大于3的行。综上所述，可以使用pandas库的read_csv函数读取CSV文件，并使用DataFrame的dropna、fillna和条件筛选等方法对数据进行清洗。 #### 引用[.reference_title] - *1* [Python数据清洗](https://blog.csdn.net/m0_53317797/article/details/126879093)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [python123.io---CSV 格式数据清洗](https://blog.csdn.net/liiuyizeliuyize/article/details/129538284)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]