开源框架源码，【python(28)，这是一份面向Python开发者的复习指南

最新推荐文章于 2024-05-19 20:50:51 发布

2301_79058515

最新推荐文章于 2024-05-19 20:50:51 发布

阅读量728

点赞数 9

分类专栏： 2024年程序员学习文章标签： python 开发语言爬虫

本文链接：https://blog.csdn.net/2301_79058515/article/details/137489511

版权

2024年程序员学习专栏收录该内容

358 篇文章 2 订阅

订阅专栏

| 刘三 | 财务部 | 2024年 | 12月 | 完成修炼科目8 |
| 刘三 | 财务部 | 2022年 | 9月 | 完成修炼科目7 |
| 刘三 | 财务部 | 2022年 | 10月 | 完成修炼科目8 |
| 刘三 | 财务部 | 2022年 | 11月 | 完成修炼科目9 |
| 刘三 | 财务部 | 2023年 | 12月 | 完成修炼科目10 |
| 刘三 | 财务部 | 2023年 | 9月 | 完成修炼科目11 |
| 刘三 | 财务部 | 2023年 | 10月 | 完成修炼科目12 |
| 刘三 | 财务部 | 2023年 | 11月 | 完成修炼科目13 |
| 刘三 | 财务部 | 2023年 | 12月 | 完成修炼科目14 |

输出结果展示

1.xlsx

2.xlsx

3.xlsx

想筛选自己想要的数据就得多加筛选条件，具体放在什么位置得看情况，主打就是一个变通。

还得一步一步的调试。

代码如下：

import pandas as pd
import re

def rename_on_keywords(text, keywords):
for keyword in keywords:
if keyword in text:
return keyword
return text

def merge_groups_on_keywords(text, keywords):
for keyword in keywords:
groups = re.findall(f’([^{、]*{keyword}[}、]*(\d+))‘, text)
counts = [int(re.search(’((\d+))‘, group).group(1)) for group in groups]
if groups:
text = text.replace(groups[0], f’{keyword} ({sum(counts)})‘)
for group in groups[1:]:
text = text.replace(’、’ + group, ‘’)
return text

读取 Excel 文件

df = pd.read_excel(‘kq.xlsx’, engine=‘openpyxl’)

列名定义

column1_name = ‘姓名’
column2_name = ‘年’
column3_name = ‘月’
column4_name = ‘当月完成工作’
column5_name = ‘年’
column6_name = ‘月’
column_to_rename = ‘月’
keywords = [‘12月’]

定义你想要排除的特定值列表

specific_values4 = [‘出差’]
specific_values5 = [‘2024’]
specific_values6 = [‘11’]

排除 ‘Column4’ 和 ‘Column5’ 中等于特定值列表的行

df = df[~df[column4_name].isin(specific_values4) & ~df[column5_name].isin(specific_values5)& ~df[column6_name].isin(specific_values6)]

对于每个 ‘姓名’，在其对应的列中，找出包含特定关键字的唯一值，并将这些值替换为关键字本身

df[column_to_rename] = df.groupby(column1_name)[column_to_rename].transform(lambda x: x.apply(lambda y: rename_on_keywords(y, keywords)))

对 Column1 进行分组，并将每个组的 Column2 和 Column3 值合并为一个字符串，并计算每个字符串的出现次数

merged = df.groupby(column1_name).apply(lambda x: ‘、’.join([f’{v} ({c})’ for v, c in (x[column2_name] + ’ ’ + x[column3_name]).value_counts().items()]))