python小项目:数据清洗,删除csv或者excel文件中指定列的非中文文本

示例
C:\Users\each\Desktop\1.csv

name,text
handsome,* 666ji赚钱
each,#$ %^搞毛  6

想要把text列中除了中文的杂项剔除用于词云分析之类,想要得到的效果是

name,text
handsome,赚钱
each,搞毛

python代码实现如下,需要安装re库
win+R输入cmd
回车
输入

pip install re

回车
打开python,输入并运行

import pandas as pd
import re

# 读取CSV文件
df = pd.read_csv('C:\\Users\\each\\Desktop\\1.csv')

# 定义一个函数来去除非中文字符,只保留中文字符
def remove_non_chinese(text):
    if isinstance(text, str):
        return re.sub(r'[^\u4e00-\u9fa5]', '', text)
    return text

# 只对第二列应用该函数(假设第二列的列名为 'text')
df['text'] = df['text'].apply(remove_non_chinese)

# 将处理后的数据保存回CSV文件
df.to_csv('C:\\Users\\each\\Desktop\\2.csv', index=False)

就会在C:\Users\each\Desktop位置生成一个名为2的csv文件

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值