瓜瓜的小宝藏
这个作者很懒,什么都没留下…
展开
-
对比Excel目录学Pandas系列之文件工具栏--打开/保存/新建
文章目录一、打开1、打开excel文件sheet_nameusecolsnrowsindex_col2、打开csv文件3、打开txt文件4、打开数据库sql文件5、read_clipboard()6、read_html()二、查看df.shapedf.columnsdf.head()df.index三、保存1、保存2、另存为3、多个表写入同个文件https://zhuanlan.zhihu.com/p/60248460https://blog.csdn.net/weixin_46132969/artic原创 2021-11-21 16:59:19 · 1660 阅读 · 0 评论 -
pandas笔记之筛选
目录一览 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加文章目录目录一览1loc2多条件筛选3iloc4数值筛选5字符筛选6索引以及切片取值7query()函数8表达式9eval()10filter函数11where和mask函数12at和iat13any和all14isin(提取其他表该列)1loc使用的行索引名或者列属性直接来取数选择一列或者多列df['A']#选择一列df[['A','B']]#选择多列选择行loc# 1、取出单个列df.loc[:,"name"原创 2022-05-22 20:54:42 · 552 阅读 · 0 评论 -
pandas笔记之数据格式
单元格格式这里写目录标题单元格格式单元格格式(数据类型)数字格式格式相互转化数据格式单元格格式(数据类型)基础df.dtypes # 各字段的数据类型df.team.dtype # 某个字段的类型s.dtype # Series 的类型df.dtypes.value_counts() # 各类型有多少个字段判断数据格式from pandas.api.types import is_numeric_dtype #导入is_numeric_dtype工具is_numeric_dtype(原创 2022-05-31 22:41:38 · 1558 阅读 · 0 评论 -
用Python对Excel文件进行批量操作
批量操作批量读取文件下的多个文件批量创建文件夹批量重命名文件批量其他操作批量合并多个文件将一份文件按照指定列拆分成多个文件原创 2022-07-01 14:14:43 · 1677 阅读 · 0 评论 -
pandas笔记之基础篇
目录准备numpy转化基础索引Series数据格式rename()准备xlsxwriter模块更适合自动化忽略警告import warningswarnings.filterwarnings('ignore')csdn基础阶段有写#读取文件直接转换df0 = pd.read_csv("数据类型操作.csv", converters={ "顾客编码":str, # 指定改变的函数原创 2022-05-31 22:41:06 · 93 阅读 · 0 评论 -
pandas笔记之对列操作
这里写目录标题对列操作hide_index()zip(列合并)groupby进行列合并列属性map/apply/applymap对列操作hide_index()`df.style.hide_index()#隐藏索引行``df.style.hide_index().hide_columns(['A','B'])#隐藏多个列`zip(列合并)df['员工']=list(zip(df['销售员'],df['跟单员'],df['接单员']))dfout:(张三, 李四, 张三)groupby进原创 2022-05-31 22:40:46 · 443 阅读 · 0 评论 -
pandas笔记之表格格式高亮以及转置
表格格式高亮以及转置文章目录表格格式高亮以及转置单元格高亮转置单元格高亮缺失值高亮df = pd.DataFrame({'A':[1,2,3,4.], 'B':[1,3,np.nan,7] } )df.style.highlight_null()#默认为红色#指定高亮的背景色为橙色df.style.highlight_null(null_color='orange')df.style.原创 2022-05-31 22:40:11 · 1174 阅读 · 0 评论 -
pandas笔记之函数与自定义函数
自定义函数与其他函数文章目录自定义函数与其他函数自定义函数函数日期函数transform?文本函数shift移动函数随机函数range数字函数自定义函数apply()是对DataFrame里的每行或列进行函数应用applymap() 是对DataFrame里的每个元素进行函数的应用。map() 是对Series里(就是单独的一列)的每个元素进行函数应用。#改成两位小数浮点数df[['a','b']].applymap(lambda x :'%.2f' %x)#需要注意的是使用lambda保留原创 2022-05-31 22:39:35 · 554 阅读 · 0 评论 -
pandas笔记之数据透视表
数据透视表文章目录数据透视表数据透视表分组cut()分组groupby()逆透视explode逆透视melt数据透视表pivot_tableagg数据透视表分组cut()需要对连续性的数据变量进行分段汇总df['分组']=pd.cut(df['金额'],[0,100,200,300,400],labels=['100内', '200内' ,'300内' ,'400内', '400以上'])#不指定labels标签类型会返回每一段的原始名称#系统就会自己判断每个分段的区间df['分组']原创 2022-05-22 21:20:32 · 389 阅读 · 0 评论 -
pandas笔记之统计函数
统计函数大全文章目录统计函数大全统计函数value_counts 计数describe统计计数函数统计函数value_counts 计数统计所有非零元素的个数,默认以降序的方式输出Series#按区域进行分类统计#(默认降序排列,如果要升序排列可以添加参数ascending = True)df['区域'].value_counts()#统计每个区域的占比,指定normalize参数为Truedf['区域'].value_counts(normalize=True)#用sum计算df['原创 2022-05-22 21:17:08 · 467 阅读 · 0 评论 -
pandas笔记之分列
分列方法一览文章目录分列方法一览split()有分裂键extract()无分列键split()有分裂键str.split()有三个参数:第一个参数就是引号里的内容:就是分列的依据,可以是空格,符号,字符串等等。第二个参数就是前面用到的expand=True,这个参数直接将分列后的结果转换成DataFrame。第三个参数的n=数字就是限制分列的次数。 默认从右边进行分列如果从左边分列的话可以用 rsplit() ,用法与split()相同根据"-"进行分列df["列名"].str.split(原创 2022-05-22 21:15:00 · 1761 阅读 · 0 评论 -
pandas笔记之拼接
拼接方法一览文章目录拼接方法一览concat多表一次性匹配合并joinappend&多列拼接合并(.str.cat)list(zip)读取并且拼接多个文档的数据concatpd.concat([df1, df2])#纵向拼接上下拼接df = pd.concat([df1, df2],axis=1) #左右拼接横向拼接pd.concat([df1,df2],keys=['df1','df2'],names=['d1','d2'] )#参数name指定每个层级索引的原创 2022-05-22 21:12:36 · 1452 阅读 · 0 评论 -
pandas笔记之查找替换定位
查找替换定位文章目录查找替换定位replace替换replace替换replace的基本结构是:df.replace(to_replace, value) 前面是需要替换的值,后面是替换后的值df.replace('A','B')#将a转换为b范围是全部df.replace('A','B',inplace=True)#改变源数据df.['列1'].replace('A','B')#将列1里面的a转换为吧替换指定多个数值(用字典或者列表)df.replace({'a':'b','c':'d'原创 2022-05-22 21:09:07 · 490 阅读 · 0 评论 -
pandas笔记之排序方法
排序方法一览文章目录排序方法一览排序sort_valuesnlargest()rank排序sort_values#根据B列进行排序df.sort_values(by='B',ascending=True)#多列进行排序df.sort_values(by=['B','C'],ascending=[True,False])#有缺失值的情况df.sort_values(by="a",na_position='first')#放在首位#ignore_index 自动索引重排df.sort_va原创 2022-05-22 21:06:13 · 126 阅读 · 0 评论 -
pandas笔记之缺失值处理
缺失值处理文章目录缺失值处理缺失值null删除填充缺失值null#查看缺失值df.isnull()/df.notnull()#查看字段缺失值df.isnull().any() # 列中是否存在空值,只要有一个缺失值即为Truedf.isnull().sum() # 每个列属性的缺失值总数df.isna().sum() #锁定缺失值存在的行df[df.isnull().values==True]删除isna与null的用法相同df.dropna() #删除缺失值 默认axis=原创 2022-05-22 21:01:51 · 324 阅读 · 0 评论 -
pandas笔记之重复值处理
重复值系列文章目录重复值系列duplicated删除重复值 drop_duplicatesduplicated#筛选唯一值df[df.duplicated('列1')==False]['列1']#查看重复值df[df.duplicated()]df.duplicated().sum() #查看一共多少重复值#查看某列重复信息df.duplicated(subset=["列"])#某列重复值可以用列表 df[df.duplicated('列1')].info()out:entries原创 2022-05-22 20:59:35 · 461 阅读 · 0 评论 -
pandas笔记之填充
系列文章目录文章目录系列文章目录缺失值填充fillna()缺失值填充fillna()df.isnull()#查询是否有缺失值df.isnull().describe()#统计缺失值df.fillna(0)#缺失值填充为0df.fillna(df.mean())df.fillna(df.sum())#mean()和sum()填充df.fillna(df.median())#中位数填充df.fillna(df.mode())#众数填充df.fillna(method='bfill')#后原创 2022-05-22 20:57:10 · 469 阅读 · 0 评论 -
对比Excel目录学Pandas系列学习开始准备更新啦
开始准备更新啦欢迎大家关注呀一起加油学习呀啦啦啦啦原创 2021-11-18 10:21:11 · 597 阅读 · 0 评论