自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 『Python - Azure Databricks』pyspark 数值精度,Decimal转Float

在对数据精度要求较高的任务中,将数据从数据源加载到数据库时不能损失精度,这时通常会使用到Decimal函数,有时候这些数据会导致异常,因为pandas不支持涉及Decimal和float的混合运算,所以必须先统一数据类型最简单粗暴的应对方法当然是直接对涉及运算的数值列进行操作了,不过缺点就是在代码量很大的情况下,这么做需要在多处修改,不仅麻烦还容易漏所以我决定从源头解决问题 -> 把数据从Database捞过来后马上转型,这样就不用修改后续需要执行的代码了。

2024-10-24 16:25:58 804

转载 『Python - Azure Databricks』在Azure Notebook中使用Logic App触发器发送邮件

具体参考在配置的过程中可以得到,它将作为下一步中Python代码内的重要参数。

2024-09-24 16:01:07 334

原创 『Python』Pandas数据透视表(pivot_table)的存储与读取

当对某个DataFrame进行操作时,输出的透视表的列名会根据参数columns所指定的列内含有的类别进行细分,最终生成到Excel时,列名也会占据多行,虽然提高了肉眼的可读性,但再次用程序加载得到的表并不方便处理。

2024-05-31 10:01:33 501

原创 『Python』数据复用 - 缓存属性

通过cached_property实现数据复用

2024-05-25 11:56:25 809

原创 『Python』如何筛选异常回溯信息(Exception traceback)

利用traceback筛选特定的异常回溯信息

2023-08-19 22:17:32 251

原创 『Python』Windows系统清除Excel僵尸进程

清除遗留在后台的Excel

2023-07-14 12:04:16 385 1

原创 『Python』『Xlwings』逆天的大文件读写速度

使用Xlwings读写大文件

2023-01-10 16:40:10 1635

原创 『Python - Pandas』drop_duplicates方法失效的探索及一种解决方法

drop_duplicates 方法失效的原因以及相应解决方案

2022-12-03 16:57:43 2047 2

原创 『Python - Xlwings』如何方便快捷地在Excel中输入附带单元格格式的DataFrame

简单快捷地输入附带单元格格式的DataFrame

2022-10-25 20:08:52 653

原创 『Python - Xlwings』Excel报表自动化中常用函数/方法

Excel自动化常用方法

2022-10-22 16:27:47 1347 2

原创 『Python』Excel文件的读取以及DataFrame的相关操作 (4)—— 常用查询语句

~~

2022-08-14 15:32:13 691

原创 『Python』『Pandas/Xlwings』如何不覆盖已有工作表,把新数据写入新的Excel工作表

~~~

2022-07-18 23:12:08 3694 1

原创 『Python』Excel文件的读取以及DataFrame的相关操作 (3)

针对Sheet和DataFrame的一些方法

2022-06-19 16:31:21 2548

原创 『Python』获取列表中重复出现的某个元素的所有索引(index)

利用pandas的index方法获取列表索引

2022-06-02 09:47:39 1736

原创 『Python』 #NUM 导致 pandas 无法读取 Excel 文件(已解决)

在我负责的 ETLETLETL 项目中,遇到了一种比较奇葩的情况。查了下导致 #NUM! 的出现的原因:数值过于巨大计算公式导致根据 PythonPythonPython 给出的错误提示,我猜测我遇到的问题应该属于第一类情况OverflowError: cannot convert float infinity to integer报错代码:import pandas as pdfile_path = r'C:show.xls'pd.read_excel(file_path)这.

2022-05-19 14:33:09 2568

原创 『Python』pytest 单元测试迅速上手 (for Pycharm)

背景介绍进行项目交付之前,甲方通常需要开发者保证项目代码的测试覆盖率达到某个值,为此我们需要为项目中的代码编写相应的单元测试,然后把代码提交到 CICICI 工具,运行 pipeilnepipeilnepipeilne 并得到单元测试(后面简称 UTUTUT)代码对项目代码的覆盖率在项目开发的过程中,若可以确定某部分代码在未来不怎么会改动,就可以为这部分代码写 UTUTUT 代码了 写UT前的准备工作写UT前的准备工作写UT前的准备工作一、文件夹创建为 UTUTUT 单独创建一个文件夹 t.

2022-05-07 10:45:26 945

原创 『Tableau』 地图显示不正确的一种可能原因

version:2021.2version: 2021.2version:2021.2情景:使用中文版的 示例超市示例超市示例超市 数据源时,发现 中国地图中国地图中国地图 无法正确显示尝试过官网(可能是因为我看的是2021.4版本的tableau说明)以及网上的所有方法了都无法解决,最终发现在 MenuMenuMenu 栏的 MapMapMap 里面有个 Edit locationEdit \space locationEdit location,一进去果然发现定位不正确:.

2022-02-23 11:07:17 6259 2

原创 『Python』tkinter 弹窗解压加密的 winzip文件

目标:解压 zipzipzip 文件夹下的所有 winzipwinzipwinzip 文件,当需要解压密码时,利用 tkintertkintertkinter 弹框接收密码,最终把所有解压出来的文件放到 unzipunzipunzip 文件夹下pyzipperpyzipperpyzipper : 0.3.5tkintertkintertkinter : pythonpythonpython 内置包文件分布情况:把上面的六个普通文件每两个压缩为一个 winzipwinzipwinzip 文.

2021-12-11 17:42:10 786

原创 『Python』Excel文件的读取以及DataFrame的相关操作 (2)

最近经常使用 pythonpythonpython 对 ExcelExcelExcel 文件进行 ETLETLETL 操作,其中 pandaspandaspandas 中一些函数经常用到,因此写下来作为初步总结。本章内容偏向于数据的定位与提取1. 已知某值,定位它在列表 list1list1list1 中的位置,即返回它的索引index_num = list1.index('specified_value')2. 将某列值设为 DataFrameDataFrameDataFrame 的索引df.

2021-11-28 21:03:20 5034

原创 『R语言&Python』针对多分类离散型变量的特征工程

在训练模型之前,我们常常需要根据不同变量的基本情况进行相应且合理的特征工程,通过阅读文献和自行尝试,我针对多分类变量的特征工程做出了一些总结数据来源(adult数据集):https://archive.ics.uci.edu/ml/datasets/Adult数据来源(adult数据集):https://archive.ics.uci.edu/ml/datasets/Adult数据来源(adult数据集):https://archive.ics.uci.edu/ml/datasets/Adult P.

2021-10-02 12:22:28 904

原创 『R语言&Python』建模前的准备:连续型与离散型变量探索,离散型变量转为虚拟变量

在建立模型之前,我们常要先对数据的类型作出判断,连续型数据可以不做处理,而离散型数据则可能需要转为虚拟变量。下文使用R语言中的经典数据集 mtcarsmtcarsmtcars 进行演示Python:Python:Python:数据集内的数据如下(复制粘贴即可):# pythonmpg = [21.0, 21.0, 22.8, 21.4, 18.7, 18.1, 14.3, 24.4, 22.8, 19.2, 17.8, 16.4, 17.3, 15.2, 10.4, 10.4, 14.7, 32.4

2021-09-12 21:09:50 2257

原创 『R语言&Python』使用logging、log4r写日志

在开发的过程中,日志能很好的帮助我们记录脚本运行过程中产生的信息,还能帮助我们定位异常,下面总结下R和python中用于写日志的函数

2021-09-04 19:04:14 1358 4

原创 『dos』使用bat文件打开jupyter lab

最近在学习使用dos命令来编写bat文件,联想到自己每次打开jupyter lab都要经过两个步骤(启动Anaconda Prompt,输入 jupyter lab )来启动, 索性就给自己定了个目标:写一个bat文件,达到 双击就能启动 jupyter lab 的效果① 确定Anaconda Prompt的目标位置按下windows键 --> 单击文件夹Anaconda3(64-bit) --> 点击上图的“打开文件位置”右键Anaconda Prompt后,点击属性可以

2021-07-05 00:47:22 839

原创 『R语言&Python』基础文件操作

目标:利用R/Python实现创建、删除、检测文件知识预备:绝对路径、相对路径和动态路径-绝对路径:直接从盘符开始的描述文件(夹)所在的完整路径。△:可能泄露个人信息# 例如通过下面这个路径别人就能知道我有彩虹六号这个游戏,并且存放路径一目了然path = 'C:\Users\acer\Documents\My Games\Rainbow Six - Siege'-相对路径:通肠胃使用"."或者".."开头,从当前目录或者父目录开始的路径。 △:相对安全> getwd() #获取当

2021-06-07 22:11:58 307 2

原创 『R语言&Python』 Excel文件的读取以及DataFrame的相关操作 (1)

Python部分:一、读取Excel提到读取数据,就不得不说 pandas 这个库了,它可以读取的文件格式如图;对表格进行数据分析时,常使用 read_csv 或者 read_excel首先把 C:\Users\acer\Desktop\data analysis\Playing.xlsx 文件地址赋值给 filepath,然后使用 pd.read_excel( ) 方法读取该文件,注意参数 sheet_name=1 意味着读取第二个表格import pandas as pdfilepath

2021-04-29 22:46:15 3707

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除