csv文件数据清洗

本文介绍了一次CSV文件的数据清洗过程,主要使用Python的pandas和正则表达式。针对176条数据,目标是删除包含实习信息的全职职位,并通过正则表达式从字符串中提取数值,计算工作经验平均值和工资范围的前25%。在处理过程中,解决了CSV文件因中文文件名导致的编码问题。
摘要由CSDN通过智能技术生成

一、需求:

对爬取的csv文件进行数据清洗

运用内容:pandas、正则表达式

二、简单分析:

共176条数据

其中,分析目标以全职为准,但职位名称包含实习信息,需要删除掉。

 

数据方面:csv保存格式为str,运用正则表达式提取数值工作经验去平均值,工资按市场情况,取工资范围前25%。

 

三、代码:

import pandas as pd
df = pd.read_csv('lagou8.4jobs.csv',encoding=
Python中,可以使用pandas库对CSV文件进行数据清洗。首先,可以使用pandas的read_csv函数读取CSV文件,并将其存储为DataFrame对象。然后,可以使用DataFrame的各种方法进行数据清洗操作。 以下是一些常用的数据清洗操作示例: 1. 删除指定行或列的数据:可以使用dropna方法删除包含缺失值的行或列。例如,df.dropna(axis=0)将删除包含缺失值的行,df.dropna(axis=1)将删除包含缺失值的列。 2. 填充缺失值:可以使用fillna方法填充缺失值。例如,df.fillna('miss')将缺失值填充为字符串'miss',df.fillna(5)将缺失值填充为数字5。 3. 根据条件筛选数据:可以使用条件语句对DataFrame进行筛选。例如,df\[df.white > 1\]将筛选出white列中大于1的行,df\[(df.blue > 1) & (df.green > 3)\]将筛选出blue列大于1且green列大于3的行。 综上所述,可以使用pandas库的read_csv函数读取CSV文件,并使用DataFrame的dropna、fillna和条件筛选等方法对数据进行清洗。 #### 引用[.reference_title] - *1* [Python数据清洗](https://blog.csdn.net/m0_53317797/article/details/126879093)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [python123.io---CSV 格式数据清洗](https://blog.csdn.net/liiuyizeliuyize/article/details/129538284)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值