- 博客(234)
- 资源 (5)
- 收藏
- 关注
原创 速刷DuckDB官网24小时-掌握核心功法
duckdb是一个非常高级的数据处理工具,与pandas各类数据分析工具均可以无缝衔接。本文带你快速掌握DuckDB的各种高级用法。
2024-09-25 21:25:58 1565
原创 PDF文本指令解析与文本水印去除
上次我在《PDF批量加水印 与 去除水印实践》一文中完成了对图片水印和文字水印的去除。但是对于页面对象的内容对象是单层,不是数组的情况,无法去除水印。今天我们专门研究PDF的文本绘制指令,并尝试去除这种水印。
2024-08-30 18:02:33 1468
原创 Python解析Word文档的自动编号
关于自动编号的知识可以参考《在 Open XML WordprocessingML 中使用编号列表》python-docx库并不能直接解析出Word文档的自动编号,因为原理较为复杂,但我们希望python能够读取自动编号对应的文本。为了测试验证,我们创建一个带有编号的文档进行测试,例如:然后我们先看看主文档中,对应的xml存储:
2024-06-12 22:36:22 2792 18
原创 PDF批量加水印 与 去除水印实践
我们可以给PDF加图片水印或文字水印,要去除图片水印,一般只需要删除最后一个图片对象即可。要去除文字水印,需要保证主体内容和文字水印在/Contents中位于不同的对象内,这样我们只需要删除文字水印对应的对象即可删除水印。而对于主体内容和文字水印已经混合在一个对象时,本文的提供的方法则无能为力,需要进一步深入分析PDF细节。
2024-06-05 22:19:54 1719 4
原创 Certbot实现 HTTPS 免费证书(Let‘s Encrypt)自动续期
以前阿里云支持申请一年的免费https证书,那每年我们手动更新证书并没什么大问题,但现在阿里云的免费证书仅支持3个月,这意味着每三个月都要要申请一下证书显得非常麻烦。下面我们使用Certbot实现ssl证书的自动更新,这次我在Centos8的Nginx上进行演示如何配置SSL证书。
2023-12-12 19:49:17 6278
原创 moviepy基本参数用法大全
MoviePy 是一个用于视频编辑的 Python 库,使用户能够处理、编辑和操作视频文件。这个库允许你剪辑视频、添加文本、合并视频剪辑,以及应用各种效果和转换。它建立在 NumPy、imageio 和 Decorator 等库的基础上,使得在处理视频时能够更加高效。MoviePy 允许你从现有视频中选择特定的片段,然后将它们合并成一个新的视频文件。你可以在视频中添加文本、图形和其他元素,以创建字幕、水印或其他视觉效果。
2023-12-11 22:34:47 3565
原创 Python优雅重启谷歌游览器并过cf
python如何优雅的重启谷歌游览器并接管控制权,start命令启动不在环境变量中的命令的原理,过cf检测的两种操作。
2023-12-06 15:59:17 1134 1
原创 OpenResty(nginx+lua+resty-http)实现访问鉴权
OpenResty 是一个基于 Nginx 和 LuaJIT 的动态 web 平台。它通过在 Nginx 中集成 LuaJIT,允许在 Nginx 服务器上运行 Lua 脚本,增加了 Nginx 的灵活性和可扩展性。首先下载并解压原版Nginx带有可以很方便的将Nginx注册为系统服务。下面我复制原版Nginx中的和文件 到 新解压的目录中。然后修改文件为如下内容:-- 服务名 --> < id > nginx
2023-12-04 22:39:54 3602 1
原创 openpyxl获取单元格的主题色的颜色值
对于RGB类型的颜色直接使用cell.fill.start_color.rgb即可获取其颜色,但是对于Theme类型的单元格获取颜色却返回一个错误。不过在wps中测试,透明度不起任何效果,不排除office或WPS未来版本支持ARGB的颜色,但目前WPS对A通道的透明度值会直接忽略。可以看到每个主题有10个基础色,然后受到透明度的影响,我将第一个单元格设置了上图的主题色。可以看到这就是一个theme类型的颜色,确实是索引5的位置,透明度40%。可以看到,全部获取到低位误差小于1的RGB颜色。
2023-11-17 20:43:44 3686 2
原创 OpenAI接口开发指南
本文先介绍了openai的主要api,然后演示了Function Calling 调用、Embeddings 嵌入、Fine-tuning 微调的操作示例,顺便演示了Prompt编程的示例。
2023-10-17 19:51:01 12952
原创 Python解析MDX词典数据并保存到Excel
下载help.mdx词典后,我们无法直接查看,我们可以使用readmdict库来完成对mdx文件的读取。同时我们可以看到有部分词的描述可能会嵌套列表。
2023-09-12 23:40:17 1806
原创 pandas读取Excel核心源码剖析,面向过程仿openpyxl源码实现Excel数据加载
今天我们将研究pandas如何使用openpyxl引擎读取xlsx格式的Excel的数据,并考虑以面向过程的形式简单的自己实现一下。截止目前本人所使用的pandas和openpyxl版本为:这里我使用pycharm工具对以下代码进行debug跟踪:核心就是两行代码:我们研究一下这两行代码所做的事:内容有很多,我们挑一些有价值的内容进行解析。默认传递的参数下,会调用inspect_excel_format函数获取文件的扩展名。直接通过文件名获取的扩展名有可能不真实,我们可以查看的源码,研究pandas判断
2023-04-12 09:03:35 2966 6
原创 提取Word文档中的Excel附件并识别文件名保存
本文详细讲解了各模块的操作代码,带命名空间的xml解析、easyocr的使用、百度云ocr的使用、xls和xlsx的ole文件提取、openpyxl复制工作簿、xlutils复制工作簿。
2023-03-07 01:33:34 2747 6
原创 Pandas的join和merge到底哪个快
大家好,我是小小明。上次我们的云朵君同学在不严谨的测试下,得出了join可以比merge快5倍的结论。虽然默认参数用法下,join确实比merge快一些,但实际上join并不见得会比merge快。链接:《默认生成1千万条数据,连接字段idx确保唯一。
2023-01-11 19:47:11 1334 6
原创 federated引擎实现mysql跨服务器表连接
公司给了多张表在不同的数据库中,一般情况下我们已经无法对这多张表进行表连接查询,而是借助其他编程语言处理。但是如果我们本地有一个开启了federated引擎的MySQL数据库,就可以轻松关联其他MySQL服务器上的表。federated引擎可将本地数据表映射至远程 MySQL 数据表,Federated引擎是基于表级别的,只能将本地数据表定义为 Federated 引擎并映射至远程实体表,无法实现基于库级别的整体映射。对于公司给的多个数据库,我们自己往往没有开启federated引擎的权限,但我们可以在自己
2023-01-09 16:03:32 1477 6
原创 SQL速算N日留存
可以看到,就这样轻松的计算出了7日留存率。按照上面SQL的思路可以轻松任意日的留存率。由于用户和登录日期被设置为主键所以不需要再进行去重,下面看看如何快速求七日留存。之前才哥发布了《用SQL进行用户留存率计算》》一文中,其他-》游戏玩法分析5的扩展。SQL刷题宝典-MySQL速通力扣困难题。
2023-01-04 20:48:38 1775 12
原创 SQL刷题宝典-MySQL速通力扣困难题
本人写SQL断断续续也有5年多了,对于刷题这种事情一直都是非常不屑的态度“写SQL这么简单的事情也需要刷?不是看一眼就会了吗?”直到我最近我真的刷了力扣的SQL题,才发现其实还是有太多不熟悉的技巧。最近花了近一个多月的时间,刷完了LeetCode上220道SQL数据库的题,感觉收获还是很多,下面在二刷后整理了本手册。
2023-01-01 07:00:00 17895 13
原创 双11购物的凑单问题与财务凑数问题
对于各类凑单问题,最经典的就是淘宝双十一的满减促销活动,比如“满 200 元减 50 元”。假设你的购物车中有 n 个(n>100)想买的商品,希望从里面选几个,在凑够满减条件的前提下,让选出来的商品价格总和最大程度地接近满减条件(200 元),如何编程解决这个问题?使用传统的编程思路就是使用动态规划,思路如下:购物车中有 n 个商品,针对每个商品都决策是否购买。每次决策之后,对应不同的状态集合。用一个二维数组 states[n][x]states[n][x]states[n][x],来记录每次决策之后所有
2022-12-25 19:01:47 16851 12
原创 Python快速计算24点游戏并获取表达式
有4个范围在[1,9]的数字,通过「加、减、乘、除」四则运算能够获得24,认为有解。4个范围在[1,9]的数字能够产生495种可能,其中404中组合情况都是有解的,有解概率高达81.62%。可以看到python计算出9个数字有重复的组合情况数是495。下面我们需要一个方法,判断4个数字能否组合成为24点,这里我采用回溯算法进行计算。
2022-12-01 22:50:55 17900 9
原创 将不规则时间段降雨量拆分合并到整点小时时间段
一份数据集描述每个站点在各个时间段内的总降雨量,可以将这个时间段的每分钟平均降雨量视为这1分钟的降雨量,最终整理合并出按整点小时统计的降雨量。例如结果是6:00-7:00,7:00-8:00等。但是原始数据集有上百万条,经过这样处理后可能出现上亿条中间数据,很可能导致内存不足。所以我出场使用一些几乎不使用额外内存的巧妙方式。咱们的测试数据共48万条。可以很明显的看到角标11到角标12的时间段再按小时拆分后存在重叠时间段,需要合并。然后重采样到小时的单位。
2022-10-28 20:53:10 16336 5
原创 Python&JS宏 实现保留样式合并表格后拆分
将所有表格的数据区域合并起来,第二列要插入当前年月,之后再对合并后的总表使用业务员进行拆分,整个操作要求保留原始数据的所有样式,包括颜色和合并单元格等。
2022-10-21 09:24:19 17087 10
原创 upload-labs通关
最近,我有个朋友老是反映部署的网站老是被黑客攻击,我看了下就是普通的PHP框架搭建的网站,经过一番排除也清除了木马。为此我专门花1天时间研究一下文件上传漏洞,知己知彼方能百战百胜。这里我选择了一个开源的靶场upload-labs。
2022-10-19 23:13:52 17139 12
原创 二道题:分组顺序向下填充 和 标注数据整理
之前群友分享这样一道Pandas题:应用pandas模块,导入“python_test.xlsx”的excel中的表格数据(2个sheet)要求:将sheet1表数据中Code_A字段按照下列规则替换为sheet2表数据中对应的Code_B字段。替换规则:1)、先按City,Year,Month,MonthSort升序排序,然后根据City,Year,Month,MonthSort匹配对应行进行替换。
2022-10-02 12:17:08 21240 4
原创 JS宏综合示例-多维度筛选统计(带窗体)
客户每天都有一份类似如下结构的数据:但是实际数据远不止这些列,列的顺序也完全随机。要求:虽然列位置不固定,但是客户能够保证列名是固定。那么我们可以实现自动查找对应列所在的位置。打开宏编辑器,测试如下代码:运行代码,立即窗口中显示结果:可以看到已经顺利实现了自动查找对应列位置。然后我们先考虑使用输入框简单实现:运行后,随意测试一组车牌:点击确定后,立即窗口打印结果如下:测试完成,后续可以通过该数组进行车牌过滤。后续客户希望输入框能够提示数据表中存在的车牌列表进行提示,于是我们可以设计窗体来实现。在宏编
2022-10-01 21:56:42 23326 13
原创 WPS增加正则处理函数,简直如虎添翼
2020年我演示了给office的Excel增加正则处理函数,文本处理瞬间变得记得简单。今天我使用JS宏开发正则处理函数,对于只安装WPS的电脑上使用会更方便。
2022-09-28 20:16:23 31091 26
原创 WPS JS宏示例-批量添加链接
原始数据如下:共1.2万多条数据,现在我们需要给来源网址添加可以点击到目标网址的链接,并通过HS编码生成详情页链接。最终生成效果如下:这个案例用Python实现会很简单,但是我们可以通过这个简单的例子练习js宏的使用,由易到难。视频学习资料:API文档:另外是必须懂JavaScript语言的语法,本人对JavaScript语言的熟练程度远高于VB,所以WPS宏的js宏也相对写的非常顺手舒服。JavaScript文档教程推荐:有宏录制功能,即使在不查API文档的情况下,也能清楚知道一些操作代码。比如我们不知道
2022-09-25 14:40:42 24648 9
原创 AQI空气质量分析与预测
AQI全称是Air Quality Index,指空气质量指数,用来衡量空气清洁或者污染的程度,值越小,表示空气质量越好。一、描述性统计二、推断统计三、相关系数分析四、区间估计五、统计建模本文理论基础可参考:描述性统计、参数估计和假设检验https://xxmdmst.blog.csdn.net/article/details/115410809本文目录:导包并读取数据:数据集描述:数据集下载地址:https://gitcode.net/as604049322/blog_data对于缺失值,我们可以使用如
2022-09-23 18:17:56 73390 114
2021年55万条IP地址库
2021-07-14
[小小明]Python正则表达式全套笔记v0.3(1.8万字干货).pdf
2021-01-17
python调用go或c语言.pdf
2021-01-01
docxtpl使用手册
2020-12-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人