目录
使用数据如下:
import pandas as pd
data = {'序号':[1, 2, 3, 4, 5, 6], '城市': ['北京', '北京', '天津市', '天津市', '唐山市', '唐山市'], '区县': ['密云县', '延庆县', '静海县', '蓟县', '乐亭县', '迁西县']}
df = pd.DataFrame(data)
序号 | 城市 | 区县 |
1 | 北京 | 密云县 |
2 | 北京 | 延庆县 |
3 | 天津市 | 静海县 |
4 | 天津市 | 蓟县 |
5 | 唐山市 | 乐亭县 |
6 | 唐山市 | 迁西县 |
1、dataframe搜索一列包含某个字符
#在城市列,搜索包含北京字符的数据,存放在df_use
df_use= df.loc[df['城市'].str.contains('北京')]
输出:
2、按照每个地市一个表导出到相应的文件夹中
实现:每个地市一个文件夹,里面每个区县一单独一个表文件
import os
#导入表头内容--见文章开头
out_file_path = 'd:/' #导出路径
for city_name, data_city in df.groupby('城市'): #按照地市分组
if not os.path.exists('{out_name}{city}'.format(out_name=out_file_path, city=city_name)): #判断是否存在文件夹,不存在就创建
os.makedirs('{out_name}{city}'.format(out_name=out_file_path, city=city_name))
for county_name, data_county in data_city.groupby('区县'): #按照区县分组
data_county.to_csv('{out_name}{city}/{county}.csv'.format(out_name=out_file_path, city=city_name,county=county_name )) #将区县表导出到地市文件夹中
输出:北京文夹下面
3、按照序号列倒序排序,删除城市列重复项
实现:排序 & 去重功能
res = df.sort_values('序号',ascending=False).drop_duplicates('城市')
输出:
4、df读取到粘贴板,直接粘贴到表格,表格直接赋值df
实现表格复制后,直接将数据存放到datafram中,datafram数据复制到粘贴板粘贴到表格中
#dataframe直接粘贴导表格,执行下面语句到表格中粘贴
df.to_clipboard()
#复制表格数据,将数据赋值给dataframe变量
#到表格中先复制,然后执行以下语句
df = pd.read_clipboard()