今天做了一个实战性的任务,利用pandas筛选出CSV的某几列数据进行数据处理,数据处理用的是re模块,也就是正则表达式。
直接上代码,注意看代码注释,自己运行一遍结合代码注释是最好的效果
代码:
import re
import pandas as pd
import time
class jk_jd():
# 方法1:传统for循环
def solution(self,data):
col = ['x','y'] # 定义要筛选的列
data_del = pd.DataFrame(data,columns=col) # 提取出要筛选的列,装到dataframe中
for i in range(len(data_del['x'])): # 遍历dataFrame中的每一行,进行正则表达式的匹配处理
data_del['x'][i] = re.sub("<br>(.*)", "", data_del['x'][i]) # 删掉<br>后面的所有数据
data_del['x'][i] = re.sub("【(.*?)】","",data_del['x'][i]) # 删掉【】中的所有数据
data_del.to_csv("deal.csv") # 导出为CSV文件
# 方法2:pandas的map模块方式
def solution1(self,data):
col = ['x','y']
data_dele =