![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理
蓝天0809
努力学习中
展开
-
dataframe数据处理中新增行
import pandas as pdresult=pd.DataFrame(columns=['id','value1','value2'])a=1b=2c=3result.loc[len(result)]=[a,b,c]原创 2021-11-22 08:51:59 · 580 阅读 · 0 评论 -
dataframe中分钟时长转化为秒
###time1,time2为str格式的时间df['secs']=(pd.to_datetime(df['time1'])-pd.to_datetime(df['time2])).dt.total_seconds()或者df['secs']=(pd.to_datetime(df['time1'])-pd.to_datetime(df['time2'])).dt.strftime("%S")原创 2021-10-20 09:49:30 · 667 阅读 · 0 评论 -
dataframe分组后拼接(上下关系)
import pandas as pddf = {'id':['a','a','b','c','c'], 'type':['red','blue','egg','star','cricle']}df = pd.DataFrame(df)grouped = df.groupby('id')result = grouped['type'].unique()result2 = result.reset_index()result2result2['type2'] = result原创 2020-07-21 16:59:07 · 1275 阅读 · 0 评论 -
os.walk用法(python)
os.walk主要用来遍历文件夹下的文件或目录.一,导入import osfrom os import walk二,os.walk函数walk(top,topdown=True,οnerrοr=None,followlinks=False)说明:top:需要遍历的目录的地址topdown:为真遍历该top目录,为假遍历top目录的子目录,默认为开启onerror:需要一个可调用对象,walk异常时调用followlinks:如果为真,则会遍历目录下的快捷方式(linux 下是 symb原创 2020-07-21 16:24:22 · 318 阅读 · 0 评论 -
python查看excel所有sheetname
import pandas as pddf=pd.ExcelFile(文件路径)sh=df.sheet_namessh原创 2020-05-30 23:47:51 · 3344 阅读 · 0 评论 -
dataFrame重设索引
1,dataframe将某列设置为索引df.set_index(‘列名’,inplace=True)2,dataFrame重设0开设有序递增1的索引,不设参数drop=True,则原索引会做作为一列(列名为’index‘)被保留df=df.reset_index(drop=True)3,不重新设置索引,但可以梳理索引的顺序用reindexdf.reindex( xxxx, axis = ‘rows’) 重置索引行顺序df.reindex( xxxx, axis = ‘columns’)如果新索引原创 2020-05-30 23:43:54 · 4160 阅读 · 3 评论 -
pd.cut
常用方式总结:import pandas as pdda=data['case_count'].describe([0.2,0.4,0.6,0.8])bins=[0,da['20%'],da['40%'],da['60%'],da['80%'],da['max']]data['case_cut']=pd.cut(data['case_count'],bins,labels=[1,2,3,4,5])list1=[]bins=[float('-inf'),-0.3,-0.2,-0.1,0,0.1,原创 2020-05-11 18:54:18 · 854 阅读 · 0 评论 -
python自动切分excel表格
一、利用loc定位行,直接写入Excel(若切分后的表格比较多,可引入参数)import pandas as pddata=pd.read_excel(r'D:\tmp\data.xlsx')da1=data.loc[0:10000,:]da2=data.loc[10001:20000,:]da3=data.loc[20001:,:]da1.to_excel(r'D:\tmp\da1.xlsx')da2.to_excel(r'D:\tmp\da2.xlsx')da3.to_excel(r'D原创 2020-05-11 09:15:09 · 1676 阅读 · 0 评论 -
pandas多列拼接(左右关系)
df['addr2']=df['addr_bd'].str.cat(df['addr_gd'])#用两列拼接结果创建新列df['addr2']=df['addr_bd'].str.cat(df['addr_gd'],sep='|')#拼接结果添加分隔符df['addr2']=df['addr_bd'].str.cat([df['addr_gd'],df['addr_ab],df['addr_d...原创 2020-04-10 15:12:46 · 4650 阅读 · 0 评论 -
dataframe值替换
1、用loc方式,适合限制条件的元素值替换或填充df.loc[df['count']==20,'是否入围']=12、用apply方式,适合元素值直接替换df.apply(lambda x:x.replace('nan%','0.00%'))...原创 2020-04-03 17:30:53 · 6606 阅读 · 0 评论 -
dataframe计算0、空值的个数
一、计算空值的个数1、计算所有列的空值个数df.isnull().sum(axis=0) #所有行的空值df.isnull().sum(axis=1) #所有列的空值df.info() #所有列的空值df.info()可以计算空值的个数,也可以查看是否有空值df.isnull().any()或者df.isnull().T.any()同样可以查看是否有空值,df.isnul...原创 2020-04-02 10:25:46 · 18158 阅读 · 5 评论 -
Python中groupby后的索引处理
想在groupby后保持groupby列的为正常列有两种方式:1、利用groupby中的as_index参数data.groupby('city',as_index=False)['是否中标'].count()2、groupby结果利用reset_index将行索引转换为列gr=data.groupby('city')['是否中标'].count()gr.reset_index(dro...原创 2020-04-01 17:10:29 · 11608 阅读 · 0 评论 -
datetime
1、获取当前时间import datetime#获取当前日期,格式是cur = datetime.datetime.now()#获取当前年、月、日、时分秒cur.year/month/day/hour/minute/second#获取当前日期cur.date()2.字符串、日期格式相互转化datetime—>strcur.strftime('%Y-%m-%d')...原创 2020-03-25 14:03:31 · 103 阅读 · 0 评论 -
strftime('%y-%m-%d')与dt.date
strftime(’%y-%m-%d’)、dt.date都可以将2020-02-02 14:01:01转化为2020-02-02,但如果有Nan值strftime(’%y-%m-%d’)将报错,dt.date不会报错。data1['createTime']=data1['createTime'].apply(lambda x:x.strftime( '%Y-%m-%d' ))data1['u...原创 2020-03-02 14:15:12 · 7369 阅读 · 0 评论 -
python合并文件夹下的Excel
import pandas as pdfrom os import walkfor root,dirs,files in walk(r'D:datas',topdown=False):#topdown处理子目录,False为不处理 print(files)#得到所有的文件名称,files是个listnum = len(files)alldata = pd.DataFrame() #...原创 2020-01-23 10:11:25 · 441 阅读 · 0 评论