自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(234)
  • 资源 (5)
  • 收藏
  • 关注

原创 速刷DuckDB官网24小时-掌握核心功法

duckdb是一个非常高级的数据处理工具,与pandas各类数据分析工具均可以无缝衔接。本文带你快速掌握DuckDB的各种高级用法。

2024-09-25 21:25:58 1565

原创 PDF文本指令解析与文本水印去除

上次我在《PDF批量加水印 与 去除水印实践》一文中完成了对图片水印和文字水印的去除。但是对于页面对象的内容对象是单层,不是数组的情况,无法去除水印。今天我们专门研究PDF的文本绘制指令,并尝试去除这种水印。

2024-08-30 18:02:33 1468

原创 Python读取任意格式的剪切板内容

Python解析剪切板

2024-08-23 12:18:28 454 1

原创 python实现微信聊天图片DAT文件还原

支持递归处理,不指定结果文件夹时,结果将写入into_path+"CovertImage"目录下。

2024-08-01 17:20:39 465

原创 Python-docx将Word文档的目录或文本框作为普通段落读入

读取非普通段落文本的思路,以后能举一反三。

2024-06-13 13:58:17 1056 8

原创 Python解析Word文档的自动编号

关于自动编号的知识可以参考《在 Open XML WordprocessingML 中使用编号列表》python-docx库并不能直接解析出Word文档的自动编号,因为原理较为复杂,但我们希望python能够读取自动编号对应的文本。为了测试验证,我们创建一个带有编号的文档进行测试,例如:然后我们先看看主文档中,对应的xml存储:

2024-06-12 22:36:22 2792 18

原创 PDF批量加水印 与 去除水印实践

我们可以给PDF加图片水印或文字水印,要去除图片水印,一般只需要删除最后一个图片对象即可。要去除文字水印,需要保证主体内容和文字水印在/Contents中位于不同的对象内,这样我们只需要删除文字水印对应的对象即可删除水印。而对于主体内容和文字水印已经混合在一个对象时,本文的提供的方法则无能为力,需要进一步深入分析PDF细节。

2024-06-05 22:19:54 1719 4

原创 Python日期范围按旬和整月以及剩余区间拆分

一个比较麻烦的日期拆分问题~

2023-12-16 15:32:22 3173 2

原创 Certbot实现 HTTPS 免费证书(Let‘s Encrypt)自动续期

以前阿里云支持申请一年的免费https证书,那每年我们手动更新证书并没什么大问题,但现在阿里云的免费证书仅支持3个月,这意味着每三个月都要要申请一下证书显得非常麻烦。下面我们使用Certbot实现ssl证书的自动更新,这次我在Centos8的Nginx上进行演示如何配置SSL证书。

2023-12-12 19:49:17 6278

原创 moviepy基本参数用法大全

MoviePy 是一个用于视频编辑的 Python 库,使用户能够处理、编辑和操作视频文件。这个库允许你剪辑视频、添加文本、合并视频剪辑,以及应用各种效果和转换。它建立在 NumPy、imageio 和 Decorator 等库的基础上,使得在处理视频时能够更加高效。MoviePy 允许你从现有视频中选择特定的片段,然后将它们合并成一个新的视频文件。你可以在视频中添加文本、图形和其他元素,以创建字幕、水印或其他视觉效果。

2023-12-11 22:34:47 3565

原创 Python优雅重启谷歌游览器并过cf

python如何优雅的重启谷歌游览器并接管控制权,start命令启动不在环境变量中的命令的原理,过cf检测的两种操作。

2023-12-06 15:59:17 1134 1

原创 OpenResty(nginx+lua+resty-http)实现访问鉴权

OpenResty 是一个基于 Nginx 和 LuaJIT 的动态 web 平台。它通过在 Nginx 中集成 LuaJIT,允许在 Nginx 服务器上运行 Lua 脚本,增加了 Nginx 的灵活性和可扩展性。首先下载并解压原版Nginx带有可以很方便的将Nginx注册为系统服务。下面我复制原版Nginx中的和文件 到 新解压的目录中。然后修改文件为如下内容:-- 服务名 --> < id > nginx

2023-12-04 22:39:54 3602 1

原创 openpyxl获取单元格的主题色的颜色值

对于RGB类型的颜色直接使用cell.fill.start_color.rgb即可获取其颜色,但是对于Theme类型的单元格获取颜色却返回一个错误。不过在wps中测试,透明度不起任何效果,不排除office或WPS未来版本支持ARGB的颜色,但目前WPS对A通道的透明度值会直接忽略。可以看到每个主题有10个基础色,然后受到透明度的影响,我将第一个单元格设置了上图的主题色。可以看到这就是一个theme类型的颜色,确实是索引5的位置,透明度40%。可以看到,全部获取到低位误差小于1的RGB颜色。

2023-11-17 20:43:44 3686 2

原创 OpenAI接口开发指南

本文先介绍了openai的主要api,然后演示了Function Calling 调用、Embeddings 嵌入、Fine-tuning 微调的操作示例,顺便演示了Prompt编程的示例。

2023-10-17 19:51:01 12952

原创 Python解析MDX词典数据并保存到Excel

下载help.mdx词典后,我们无法直接查看,我们可以使用readmdict库来完成对mdx文件的读取。同时我们可以看到有部分词的描述可能会嵌套列表。

2023-09-12 23:40:17 1806

原创 Typora导出的PDF目录标题自动加编号

【代码】Typora导出的PDF目录标题自动加编号。

2023-08-31 19:45:11 1478 1

原创 pandas读取Excel核心源码剖析,面向过程仿openpyxl源码实现Excel数据加载

今天我们将研究pandas如何使用openpyxl引擎读取xlsx格式的Excel的数据,并考虑以面向过程的形式简单的自己实现一下。截止目前本人所使用的pandas和openpyxl版本为:这里我使用pycharm工具对以下代码进行debug跟踪:核心就是两行代码:我们研究一下这两行代码所做的事:内容有很多,我们挑一些有价值的内容进行解析。默认传递的参数下,会调用inspect_excel_format函数获取文件的扩展名。直接通过文件名获取的扩展名有可能不真实,我们可以查看的源码,研究pandas判断

2023-04-12 09:03:35 2966 6

原创 批量合并格式不确定的Word文档

需求:有几百个word试题,格式有doc和docx,现需合并为1个word,以便考试时搜索答案。

2023-03-08 19:02:28 1139 3

原创 提取Word文档中的Excel附件并识别文件名保存

本文详细讲解了各模块的操作代码,带命名空间的xml解析、easyocr的使用、百度云ocr的使用、xls和xlsx的ole文件提取、openpyxl复制工作簿、xlutils复制工作簿。

2023-03-07 01:33:34 2747 6

原创 微信3.9.10群友列表提取代码更新

前文:《如今微信更新到3.9.0.28,节点情况有了较大变化。现在更新一下代码。

2023-02-21 15:58:07 2102 2

原创 基于AST的babel库实现js反混淆还原基础案例荟萃

一个菜鸟的倔强,学习js反混淆的入门笔记

2023-02-03 17:30:18 30427 4

原创 Pandas的join和merge到底哪个快

大家好,我是小小明。上次我们的云朵君同学在不严谨的测试下,得出了join可以比merge快5倍的结论。虽然默认参数用法下,join确实比merge快一些,但实际上join并不见得会比merge快。链接:《默认生成1千万条数据,连接字段idx确保唯一。

2023-01-11 19:47:11 1334 6

原创 federated引擎实现mysql跨服务器表连接

公司给了多张表在不同的数据库中,一般情况下我们已经无法对这多张表进行表连接查询,而是借助其他编程语言处理。但是如果我们本地有一个开启了federated引擎的MySQL数据库,就可以轻松关联其他MySQL服务器上的表。federated引擎可将本地数据表映射至远程 MySQL 数据表,Federated引擎是基于表级别的,只能将本地数据表定义为 Federated 引擎并映射至远程实体表,无法实现基于库级别的整体映射。对于公司给的多个数据库,我们自己往往没有开启federated引擎的权限,但我们可以在自己

2023-01-09 16:03:32 1477 6

原创 两大js调试工具的安装

nodejs的调试工具node-inspect和浏览器内存漫游工具ast-hook-for-js-RE的安装

2023-01-08 13:15:49 1896 2

原创 SQL速算N日留存

可以看到,就这样轻松的计算出了7日留存率。按照上面SQL的思路可以轻松任意日的留存率。由于用户和登录日期被设置为主键所以不需要再进行去重,下面看看如何快速求七日留存。之前才哥发布了《用SQL进行用户留存率计算》》一文中,其他-》游戏玩法分析5的扩展。SQL刷题宝典-MySQL速通力扣困难题。

2023-01-04 20:48:38 1775 12

原创 SQL刷题宝典-MySQL速通力扣困难题

本人写SQL断断续续也有5年多了,对于刷题这种事情一直都是非常不屑的态度“写SQL这么简单的事情也需要刷?不是看一眼就会了吗?”直到我最近我真的刷了力扣的SQL题,才发现其实还是有太多不熟悉的技巧。最近花了近一个多月的时间,刷完了LeetCode上220道SQL数据库的题,感觉收获还是很多,下面在二刷后整理了本手册。

2023-01-01 07:00:00 17895 13

原创 双11购物的凑单问题与财务凑数问题

对于各类凑单问题,最经典的就是淘宝双十一的满减促销活动,比如“满 200 元减 50 元”。假设你的购物车中有 n 个(n>100)想买的商品,希望从里面选几个,在凑够满减条件的前提下,让选出来的商品价格总和最大程度地接近满减条件(200 元),如何编程解决这个问题?使用传统的编程思路就是使用动态规划,思路如下:购物车中有 n 个商品,针对每个商品都决策是否购买。每次决策之后,对应不同的状态集合。用一个二维数组 states[n][x]states[n][x]states[n][x],来记录每次决策之后所有

2022-12-25 19:01:47 16851 12

原创 Python读取Word文档中的Excel嵌入文件

读取word中的Excel嵌入文件的指定工作表中的指定单元格,两种实现方法。

2022-12-13 22:03:05 17606 10

原创 Python快速计算24点游戏并获取表达式

有4个范围在[1,9]的数字,通过「加、减、乘、除」四则运算能够获得24,认为有解。4个范围在[1,9]的数字能够产生495种可能,其中404中组合情况都是有解的,有解概率高达81.62%。可以看到python计算出9个数字有重复的组合情况数是495。下面我们需要一个方法,判断4个数字能否组合成为24点,这里我采用回溯算法进行计算。

2022-12-01 22:50:55 17900 9

原创 将不规则时间段降雨量拆分合并到整点小时时间段

一份数据集描述每个站点在各个时间段内的总降雨量,可以将这个时间段的每分钟平均降雨量视为这1分钟的降雨量,最终整理合并出按整点小时统计的降雨量。例如结果是6:00-7:00,7:00-8:00等。但是原始数据集有上百万条,经过这样处理后可能出现上亿条中间数据,很可能导致内存不足。所以我出场使用一些几乎不使用额外内存的巧妙方式。咱们的测试数据共48万条。可以很明显的看到角标11到角标12的时间段再按小时拆分后存在重叠时间段,需要合并。然后重采样到小时的单位。

2022-10-28 20:53:10 16336 5

原创 从C#到Python手把手教你用Python实现内存扫描获取指定字符串

Python扫描内存中字符串获取数据的方法。

2022-10-28 15:54:59 18852 9

原创 2048网页版游戏高分插件代码分享

分享2048游戏拿下任意分数的方法。

2022-10-25 18:53:34 32446 16

原创 Python&JS宏 实现保留样式合并表格后拆分

将所有表格的数据区域合并起来,第二列要插入当前年月,之后再对合并后的总表使用业务员进行拆分,整个操作要求保留原始数据的所有样式,包括颜色和合并单元格等。

2022-10-21 09:24:19 17087 10

原创 upload-labs通关

最近,我有个朋友老是反映部署的网站老是被黑客攻击,我看了下就是普通的PHP框架搭建的网站,经过一番排除也清除了木马。为此我专门花1天时间研究一下文件上传漏洞,知己知彼方能百战百胜。这里我选择了一个开源的靶场upload-labs。

2022-10-19 23:13:52 17139 12

原创 二道题:分组顺序向下填充 和 标注数据整理

之前群友分享这样一道Pandas题:应用pandas模块,导入“python_test.xlsx”的excel中的表格数据(2个sheet)要求:将sheet1表数据中Code_A字段按照下列规则替换为sheet2表数据中对应的Code_B字段。替换规则:1)、先按City,Year,Month,MonthSort升序排序,然后根据City,Year,Month,MonthSort匹配对应行进行替换。

2022-10-02 12:17:08 21240 4

原创 JS宏综合示例-多维度筛选统计(带窗体)

客户每天都有一份类似如下结构的数据:但是实际数据远不止这些列,列的顺序也完全随机。要求:虽然列位置不固定,但是客户能够保证列名是固定。那么我们可以实现自动查找对应列所在的位置。打开宏编辑器,测试如下代码:运行代码,立即窗口中显示结果:可以看到已经顺利实现了自动查找对应列位置。然后我们先考虑使用输入框简单实现:运行后,随意测试一组车牌:点击确定后,立即窗口打印结果如下:测试完成,后续可以通过该数组进行车牌过滤。后续客户希望输入框能够提示数据表中存在的车牌列表进行提示,于是我们可以设计窗体来实现。在宏编

2022-10-01 21:56:42 23326 13

原创 WPS JS宏入门案例集锦

几个入门wps js宏的小案例,以及JavaScript语法补充

2022-09-28 21:55:54 60403 29

原创 WPS增加正则处理函数,简直如虎添翼

2020年我演示了给office的Excel增加正则处理函数,文本处理瞬间变得记得简单。今天我使用JS宏开发正则处理函数,对于只安装WPS的电脑上使用会更方便。

2022-09-28 20:16:23 31091 26

原创 WPS JS宏示例-批量添加链接

原始数据如下:共1.2万多条数据,现在我们需要给来源网址添加可以点击到目标网址的链接,并通过HS编码生成详情页链接。最终生成效果如下:这个案例用Python实现会很简单,但是我们可以通过这个简单的例子练习js宏的使用,由易到难。视频学习资料:API文档:另外是必须懂JavaScript语言的语法,本人对JavaScript语言的熟练程度远高于VB,所以WPS宏的js宏也相对写的非常顺手舒服。JavaScript文档教程推荐:有宏录制功能,即使在不查API文档的情况下,也能清楚知道一些操作代码。比如我们不知道

2022-09-25 14:40:42 24648 9

原创 AQI空气质量分析与预测

AQI全称是Air Quality Index,指空气质量指数,用来衡量空气清洁或者污染的程度,值越小,表示空气质量越好。一、描述性统计二、推断统计三、相关系数分析四、区间估计五、统计建模本文理论基础可参考:描述性统计、参数估计和假设检验https://xxmdmst.blog.csdn.net/article/details/115410809本文目录:导包并读取数据:数据集描述:数据集下载地址:https://gitcode.net/as604049322/blog_data对于缺失值,我们可以使用如

2022-09-23 18:17:56 73390 114

决战Linux到精通.pdf

https://xxmdmst.blog.csdn.net/article/details/120446586这篇文章的PDF版本

2021-09-24

2021年55万条IP地址库

字段说明: StartIPText 起始IP StartIPNum 起始IP数值 EndIPText 结束IP EndIPNum 结束IP数值 Country 国家/地区 Local 本地/地址

2021-07-14

[小小明]Python正则表达式全套笔记v0.3(1.8万字干货).pdf

本文档是小小明个人的学习笔记,涵盖了正则表达式的各个方面,包括各种模式、分组、断言。 正则的匹配、查找、替换和切割一节包含各种典型的实际案例,各类使用场景。 正则匹配规则表,方便我们随时查询正则的规则,即使我自己也无法保证把那些规则全部记住,使用时 需要随时回来查询。 贪婪模式和非贪婪模式部分顺便简单讲解了正则匹配的基本原理(NFA和DFA,在2.3和3.2两个章 节)。 会员阅读地址:https://blog.csdn.net/as604049322/article/details/112691043 作者的博客地址:https://blog.csdn.net/as604049322

2021-01-17

python调用go或c语言.pdf

Python是一个生产力很高的语言,能够以最高的效率完成最多的事,但是Python的性能,是我们一直诟病的一个问题,尤其是一个大锁GIL。当然现在大部分程序都是(IO)网络密集型程序,Python足以胜任,但是如果说我们已经存在的项目或者想要开发的项目中,存在有计算密集型的程序场景,该如何提升性能呢? ​ 一般是可以用C\C++重写Python计算密集的地方,来提高性能,但是C\C++是有一些学习成本的,指针和自己释放内存都有一定门槛。Go就很方便了,自动垃圾自动回收,还有天生高并发等优势。 ​ python的ctypes模块提供了和C语言兼容的数据类型和函数来加载so/dll动态链接

2021-01-01

docxtpl使用手册

一个强大的包docxtpl ,它通过对docx文档模板加载,使用jinja2网页模板开发的语法对其进行修改。 docxtpl 的作者开发出它的原因主要是python-docx擅长创建word文档,却不擅长修改。 对于docxtpl来说,使用MicrosoftWord编辑文档时,直接在文档中插入类似于Jinja2的标记。将文档保存为.docx文件(XML格式):它将是.docx模板文件。 然后使用docxtpl加载这个.docx模板、

2020-12-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除