可以使用 python 中的正则表达式库 re
来实现。
首先,你需要通过 pandas
库读取数据框,并使用 apply
方法对数据框中的每一行进行处理。
示例代码如下:
import pandas as pd
import re
# 读取数据框
df = pd.read_csv('data.csv')
# 定义正则表达式
pattern = '[\u4e00-\u9fa5]+'
# 定义函数,用于去除字符串中的中文
def remove_chinese(string):
return re.sub(pattern, '', string)