pandas——对csv文件进行增加列、删除列、删除行、修改、查找重复等系列操作

最新推荐文章于 2024-08-05 23:12:28 发布

Dear Slim.

最新推荐文章于 2024-08-05 23:12:28 发布

阅读量5.4w

点赞数 44

分类专栏： Scrapy 文章标签： pandas python csv 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43525427/article/details/98745889

版权

该博客介绍了如何使用pandas进行CSV文件处理，包括合并文件、读取、删除重复行、修改内容、删除和重命名列、插入列、删除指定行范围、删除0项行等操作，适用于数据预处理和爬虫项目。

摘要由CSDN通过智能技术生成

算是爬虫中对庞大的数据进行预处理的很重要的一步。
经过一段时间的工作不断完善，功能上基本实现了我的预期。

最终结果csv文件大概长这样

import pandas as pd
import numpy as np
import re
import csv
import sys

这是我的引用import各种包。

1. 合并csv文件（在cmd中进行操作）

cat *.csv>all.csv

或者

cat 1.csv 2.csv 3.csv...>all.csv

（先通过cmd进入目录内，然后用上面的指令合并多个csv为all.csv）

1. 读csv文件

df=pd.read_csv('/Users/hey/Desktop/楼宇办公自动化_nodup.csv') 
df=df.astype(str)

第一行是读指定目录下的特定文件，写的绝对路径
第二行通过转换里面的数据为str也就是字符串以便操作

3. 删除重复

df.drop_duplicates('name', 'first', inplace=True)

inplace=True意思就是应用修改到文件中，如果只是想在环境中跑跑试试可以去掉inplace=True，这样新的导出文件就不会有改动。
‘name’这一列写的是产品具体品牌型号等等，通过检查name就知道有没有商品爬重复了。

4. 写入CSV文件

df = df.to_csv("/Users/hey/Desktop/楼宇办公自动化_nodup.csv",index=0)

5. 删除包含关键字的行

最低0.47元/天解锁文章

关注

44
点赞
踩
376

收藏

觉得还不错? 一键收藏
打赏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Dear Slim. 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。