自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 数据分析-医院不合理收费自查思考

医院不合理收费清理思路回顾。

2025-03-10 09:32:56 368

原创 Pandas 数据分析实践-寻找医疗数据中31天再次入院的数据

单位运营部提了一个需求,需要在病案首页数据中,找出31天内再次入院的数据。开始我想了很久,按照人常规思维就是要将数据按照身份进行分组,比如就诊号或者身份证号,然后将组内第二次入院时间减去第一次出院时间,再筛选0-31天的数据,这种方式需要使用循环语句去循环读取每一组数据,然后将时间进行计算,然后将0-31天的数据写入一个数据中。下面我来说一说这个方法的思路,再写实例代码。然后将副本中的入院时间减去原数据中的出院时间;数据导出来之后有时你还需要看看数据可能会出现一些问题,比如原来的数据质量问题。

2024-08-07 08:57:47 317

原创 pandas 数据处理-将对应分组的数据字符串罗列在一起,以‘,’分开

函数按照'病种组合代码'列的值对数据进行分组。然后,对每个分组中的'诊断名称'列应用一个自定义的聚合函数,该函数将同一组内的'诊断名称'值连接成一个字符串,各个值之间用逗号分隔。最近在处理数据是时,客户要求将同一病种的诊断名称罗列在一起,以“,”分开。函数重置索引,以便在结果中包含'病种组合代码'列作为普通列而不是索引。

2024-07-05 08:53:56 229

原创 python pandas为数据表的每一条数据标记其重复的次数

我们可以使用分组汇聚计算每一位客户光顾的次数,但是如果使用名字有可能遇到同名的情况,这里假设客户编号是与每位客户绑定的,有时我们会遇到无法用单列数据来确定客户身份,这个使用可以使用多列数据组合的方式来确定身份(新建一列身份数据 data['客户身份'] = data['客户编号'] + data['姓名'])。总结一下,这个方法只是我在实际工作中找到的比较简洁的方法,当然还有很多方法,如果你有更好的方法,同学们相互学习学习。我们要把这张表的次数写入到客户光顾表中,很简单,使用merge()函数就可以了。

2024-06-26 08:52:42 436

原创 pandas 数据分析思维-数据标记从模糊到精确

数据标记的目的是对数据进行分类处理,在分类时经常出现通过某列或几列数据进行数据的判断来进行处理,包括关键词模糊判断、精确判断、单列判断、多列判断等等。在开展工作前我们需要现在开展各种判断的权重进行排序。

2024-06-17 20:33:06 256

原创 pandas 如何用空格将两列数据拼接起来

函数是Python的内置字符串方法,用于将序列中的元素以指定的字符连接生成一个新的字符串。在处理数据的时候,有时需要将两列或多列数据进行拼接,其实方法还是挺多的。函数会遍历DataFrame的每一行,并且对于每一行,它都会使用。,而是直接使用Pandas的向量化字符串操作,即使用第一种方法。更快,因为它在整个Series上进行操作,而不是逐行处理。第一种方法,直接使用+号,这是最容易也是最高效的方法。然而,如果你想要一个更高效的方法,你应该避免使用。第二种方法使用使用apply和lambda函数。

2024-04-06 09:31:55 819 1

原创 pandas 数据分析 - 谈谈日期时间数据的处理

日期时间在数据分析中占有非常重要位置,很多时间我们都要用到时间,处理起来也非常的麻烦。比如,在处理数据之前的数据清洗,需要将数据进行时间格式化,有时遇到的时间数据本身就有问题,需要进行规范化处理;清洗后的时间,根据数据分析的目标,有时需要将时间进行拆分,有时需要将时间进行运算。在工作中,觉得应该把这些方法总结出来,以便日后工作参考。

2023-11-24 08:55:33 284 1

原创 pandas数据分析-浅谈数据标记

做过了大量的数据分析之后,我发现在做数据分析中数据标记需要经常用到。在大多数情况下,根据数据分析的目标,直接使用原生数据无法分组汇聚,那就需要对数据进行重新标记。下面我就对我遇到的有几种情况说一下我的操作方法:第一种情况,要对数据列中的某些值进行合并分类;第二情况是对包含某些关键词的数据进行二次分类标记。

2023-11-16 19:08:10 303 1

原创 pandas 将df中“某1“列数据中包含了“字符1”、“字符2”的数据对应的“某2”列的行数据替换为“特定值”

可以使用str.contains方法和loc方法来实现。

2023-06-13 17:28:43 691 1

原创 python 如何将电子表格按照某一列相同数据分到一个一个工作表中

在上面的代码中,你需要将 `Column_Name` 替换成你需要分组的列名,将 `data.xlsx` 替换成你的电子表格文件名,并将 `output.xlsx` 替换成你的输出文件名。运行上面的代码后,你将会得到一个包含多个工作表的 Excel 文件,每个工作表包含相同值的行。你可以使用 Pandas 库来将电子表格按照某一列相同数据分成多个工作表。# 创建一个 Excel 文件写入分组后的数据。# 将每个分组写入不同的工作表。# 保存并关闭 Excel 文件。# 按照某一列的值分组。

2023-05-31 07:43:07 730 1

原创 pandas 两个表的如何进行索引关联

on指定了关联的列名,如果两个表的列名不同,可以使用lsuffix和rsuffix分别指定左、右表的列名后缀;on指定了关联的列名,如果两个表的列名不同,可以使用left_on和right_on分别指定左、右表的列名;how指定了关联方式,有inner、outer、left、right四种方式,默认为inner;how指定了关联方式,有inner、outer、left、right四种方式,默认为left;Pandas中可以使用merge()函数或join()函数来将两个表进行索引关联。

2023-03-11 08:42:59 1858

原创 消灭重复工作-使用Python 3将数据自动录入到软件中

工作目标,假设我们现在拿到一份新工作,是将电子表格中的数据一条一条的录入到图形软件中。

2023-03-02 17:12:53 1326

原创 使用pandas分析医院人群20分钟分段就医人数

分析医院每20分钟段就医人数情况,找出医院集中就医的时间段。思路首先要对各个时间段的人员进行时间段标记,然后通过分组聚合使用count()函数统计每个时间段的人数。

2022-07-28 09:14:45 412

原创 使用pandas处理处理电子表格中的数据

最近学习了pandas,正好将前期学习的openpyxl和pandas结合起来处理数据。总体思路:首先打开工作簿,读取工作表中的数据,将第一行单独读取作为字典Key,然后分别读取工作表中的列并转换为列表作为字典的值。然后将数据通过DateFrame对象化实例。具体怎么处理数据就不说了,可以搜索DateFrame的具体文档,按照自己的意图进行处理。处理之后使用df.to_csv()导出数据。 整个过程中最主要的是将电子表格数据形成一个字典,然后再DataFrame。做好了这一步就可以用pandas作具体

2022-07-05 11:31:54 708

原创 Python 对比两个电子表格数据的交集

思路很简单,首先是将两个电子表格中需要对比的数据读取出来,默认读取出来的数据是元祖,求交集最好的方式是把数据转换为集合,然后直接用交集运算符‘&’进行交集运算。再将运算好的数据转换为列表写入电子表格中,最后保存。文件目录:D:\python\doc下面有多个文件夹,每个文件夹下面有一个文件;现在需要每个文件与D:\python\data.xlsx逐个交集。每个交集生成一个电子表格保存到一个目录里面代码如下:......

2022-06-26 07:45:14 1081 1

原创 使用Python批量查看A电子表格的数据不包含在B电子表格中数据

最近,单位同事需要知道30多个电子表格中的数据是否包含在一个基础表中,需要依次将30多个电子表格依次与基础表进行包含关系的进行处理,每个电子表格中有3多条数据与基础表的8万多条数据进行包含关系的处理,如此大的数据量处理,不用Python,真的很难。还好有之前的相同的数据处理经历,我很快就编写好了代码,同事把电子表格发给我,运行代码,喝咖啡,接下来等待收获果实了。......

2022-06-16 11:14:18 610 3

原创 使用Python对比两个excel表格中的重复数据

不说了,直接上代码了from openpyxl import load_workbook, Workbookwb1 = load_workbook('D:\peple\excel01.xlsx') #打开工作簿,并创建一个工作簿对象wb1wb2 = load_workbook('D:\peple\excel02.xlsx')a_wb = wb1['导出'] #打开工作表,并创建一个工作表对象b_wb = wb2['导出']a_wb_max_row = len........

2022-06-15 22:39:50 7673 8

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除