DataFrame
mohana48833985
这个作者很懒,什么都没留下…
展开
-
KeyError: ‘The grouper name is not found‘ resample
KeyError: 'The grouper name is not found' resample原创 2023-02-28 17:24:14 · 450 阅读 · 1 评论 -
matplotlib 平滑曲线 绘制圆滑曲线 光滑曲线 折线图 插值法 scip
matplotlib 平滑曲线 绘制圆滑曲线 光滑曲线 折线图 插值法 scip原创 2023-02-17 11:37:13 · 1063 阅读 · 0 评论 -
matplotlib 保留刻度 不显示 ticks
matplotlib 保留刻度 不显示 ticks原创 2023-02-17 11:34:54 · 333 阅读 · 0 评论 -
dataframe 堆积图 堆积折线图 stacked=True 堆积条形图 plt.barh plt.bar 堆积柱状图 参数详解
dataframe 堆积图 堆积折现图 stacked=True原创 2023-02-16 11:47:43 · 513 阅读 · 0 评论 -
文本相似度计算
亲测对于海量计算,采用simhash相似度算法会快很多。原创 2022-12-29 17:48:02 · 263 阅读 · 0 评论 -
dataframe 多层索引 删除索引
dataframe 多层索引 删除索引# 删除指定等级的索引df.index.droplevel(0)原创 2022-08-11 22:54:53 · 2551 阅读 · 0 评论 -
dataframe 多层索引 更换索引 df.swaplevel(axis=1)
df.swaplevel(axis=1)原创 2022-08-03 20:36:32 · 595 阅读 · 0 评论 -
dataframe 分组后排序的前n行 nlargest argmax idmax tail !!!!
dataframe 分组后排序的前n行 nlargest argmax idmax tail !!!!原创 2022-07-21 22:20:40 · 327 阅读 · 0 评论 -
dataframe 绘制相关系数拟合线 散点图拟合线
https://blog.csdn.net/weixin_42395998/article/details/123414317转载 2022-07-19 14:45:35 · 401 阅读 · 0 评论 -
dataframe matplotlib 日期坐标轴变密集、坐标轴百分比格式(更改坐标轴格式)
dataframe matplotlib 日期坐标轴变密集、坐标轴百分比格式(更改坐标轴格式)原创 2022-07-08 15:38:45 · 865 阅读 · 0 评论 -
df.plot dataframe 子图布局 自定义子图布局 layout参数
df.plot(layout=(3,1))原创 2022-05-27 12:11:41 · 413 阅读 · 0 评论 -
dataframe df.plot secondary_y 双y轴
df.plot(secondary_y='列名')原创 2022-05-25 16:19:24 · 1165 阅读 · 0 评论 -
OverflowError: Python int too large to convert to C long
df.col.astype(int)OverflowError: Python int too large to convert to C longdf.col.astype(int64)原创 2022-01-21 13:59:51 · 1731 阅读 · 0 评论 -
为什么DataFrame表连接、map字典查询匹配不到
问题描述:df[col2] = df.col1.map(dict1)df.col2.unique()>>> [nan]可能是字段格式不一致原创 2022-01-21 10:19:34 · 465 阅读 · 0 评论 -
python 读取剪贴板的内容
# python读取剪切板内容from win32clipboard import GetClipboardData, OpenClipboard, CloseClipboardfrom win32con import CF_TEXT# 读取剪贴板的数据def get_cut(): OpenClipboard() d = GetClipboardData(CF_TEXT) CloseClipboard() return d.decode('GBK')...原创 2022-01-13 18:57:42 · 3952 阅读 · 0 评论 -
dataframe 多层索引 多重索引 多个列 自动对列排序 交换索引等级 改变多层索引等级 多层索引查询
df.swaplevel(axis=1)原创 2022-01-11 16:31:20 · 2265 阅读 · 1 评论 -
dataframe 时间戳转日期
不要用pd.datetime对于秒级的时间戳:df.time.apply(lambda x: time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(x)))对于毫秒级的时间戳:df.time.apply(lambda x: time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(x/1000)))原创 2022-01-10 13:46:55 · 2332 阅读 · 3 评论 -
dataframe 模仿sql实现窗口函数功能 lead lag dataframe groupy 实现窗口函数
df:DataFrame,每个工单的操作日志表。列:工单号, 操作时间,操作行为代码我想找出有哪些工单进行了操作1之后紧接着就是进行操作5如果是在sql中,直接用lead窗口函数就行。但是在dataframe中,需要结合groupby和sort_values、shift来实现。# 1. 按工单和操作时间排序df.sort_values(['工单号','操作时间'], inplace=True)# 2. 给予每行操作一个唯一的主键df['id'] = range(len(df))# 3.原创 2022-01-07 11:37:35 · 1393 阅读 · 0 评论 -
ParserError: Error tokenizing data. C error: Expected 2 fields in line 3, sa
把read_csv改成read_excel原创 2022-01-05 11:40:36 · 1320 阅读 · 1 评论 -
matplotlib dataframe 画双y‘轴图,x轴中文标签不一致
一张图画两次,在第二次画图时,设置第二个的Series的index和第一个的Series的index对齐:s2.reindex(index=s1.index)fig = plt.figure()ax1 = fig.add_subplot(111)occu_data = ap_train.groupby('OCCUPATION_TYPE').TARGET.mean().sort_values()plt.bar(occu_data.index, occu_data.values)plt.xticks(原创 2022-01-04 00:51:57 · 1321 阅读 · 0 评论 -
dataframe 求中位数
df.col.median()原创 2022-01-04 00:29:38 · 3696 阅读 · 0 评论 -
Series重新排序 自定义排序
edu_data[['Lower secondary', 'Secondary / secondary special', 'Higher education', 'Incomplete higher', 'Academic degree']]原创 2022-01-02 23:15:14 · 307 阅读 · 0 评论 -
dataframe的iloc和loc共用
需求:用iloc取索引,loc取列名df.iloc[ind]['column_name']原创 2021-12-16 16:17:43 · 484 阅读 · 0 评论 -
xlwings 冻结窗口格 / 冻结首行/ FreezePanes
冻结窗口# 1. 选中要冻结的单元格wb.app.range("A2").select() # "A2"冻结首行# 2. 进行冻结操作wb.app.api.ActiveWindow.FreezePanes = True如果要冻结其他工作簿的窗口格,那么只需指定目标工作簿的窗口格,然后冻结即可:wb.app.range("sheet2!A2").select()wb.app.api.ActiveWindow.FreezePanes = True方法参考VBA冻结窗口操作:原创 2021-12-01 19:49:36 · 2420 阅读 · 0 评论 -
dataframe 保存导出为csv/xlsx to_csv / to_excel不要科学计数法
比如df['a']会保存为科学计数法那么对这列做如下操作:df['a'] = df['a'].astype(str{) + '\t'原创 2021-11-23 17:30:50 · 2304 阅读 · 0 评论 -
xlwings笔记
对比了openxl…、pd.ExcelWriter和xlwtings。发现xlwtings最好用了,既不会频频失效,也不需要一格一格地遍历单元格。先记录一些。# 冻结窗口格,需要把excel页面打开!!!因为默认取当前打开的窗口active_window = xw.books.active.app.api.ActiveWindow active_window.FreezePanes = Falseactive_window.SplitColumn = 1active_window.Spli原创 2021-11-22 01:12:16 · 2050 阅读 · 0 评论 -
dataframe groupby分组后取指定列/前几列/第一列的值
groupby+headdf.groupby('col').iloc[0] # 取分组后每一组的第一列df.groupby('col').iloc[-1] # 取分组后每一组的最后一列原创 2021-11-20 15:34:20 · 4922 阅读 · 1 评论 -
DataFrame 自动保存为指定格式的Excel
import pandas as pddef to_excel(df, excel_path, freeze_panes=None, sheet_name='Sheet1'):# 保存为excel,并设置格式。暂不支持多表写入同一excel# 格式:# 将int64转为文本,float转为两位小数# parameter:# df:dataframe# excel_path:文件路径(示例:C:\Users\Qiudan.原创 2021-11-19 01:31:12 · 2467 阅读 · 0 评论 -
dataframe 科学计数法转为整数出现负数 -2147483648
int 满了,转为int64原创 2021-11-18 14:08:19 · 599 阅读 · 0 评论 -
DataFrame上下或左右合并 pd.concat
train和test有同样的columnspd.concat([train,test]) # 上下合并train,test原创 2020-10-07 13:33:42 · 6484 阅读 · 0 评论 -
datafram groupby 分组取出某一列取值最大时,另一列的取值
ht表概览目标:对每个用户id分组,取出totalCont最大时的热门+位置。方法1:ht.groupby('用户id').apply(lambda x: x.loc[x.totalCount.idxmax(), '热门+位置'])当数据量大时,非常慢!方法2:对totalCount排序,然后去除用户id重复项,保留第一项(即保留了totalCount最大时的用户id)。ht.sort_values('totalCount', ascending=False).drop_duplicate原创 2021-10-06 23:59:13 · 1535 阅读 · 0 评论