自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(225)
  • 资源 (5)
  • 收藏
  • 关注

原创 Python优雅重启谷歌游览器并过cf

python如何优雅的重启谷歌游览器并接管控制权,start命令启动不在环境变量中的命令的原理,过cf检测的两种操作。

2023-12-06 15:59:17 38

原创 OpenResty(nginx+lua+resty-http)实现访问鉴权

OpenResty 是一个基于 Nginx 和 LuaJIT 的动态 web 平台。它通过在 Nginx 中集成 LuaJIT,允许在 Nginx 服务器上运行 Lua 脚本,增加了 Nginx 的灵活性和可扩展性。首先下载并解压原版Nginx带有可以很方便的将Nginx注册为系统服务。下面我复制原版Nginx中的和文件 到 新解压的目录中。然后修改文件为如下内容:-- 服务名 --> < id > nginx

2023-12-04 22:39:54 278

原创 openpyxl获取单元格的主题色的颜色值

对于RGB类型的颜色直接使用cell.fill.start_color.rgb即可获取其颜色,但是对于Theme类型的单元格获取颜色却返回一个错误。不过在wps中测试,透明度不起任何效果,不排除office或WPS未来版本支持ARGB的颜色,但目前WPS对A通道的透明度值会直接忽略。可以看到每个主题有10个基础色,然后受到透明度的影响,我将第一个单元格设置了上图的主题色。可以看到这就是一个theme类型的颜色,确实是索引5的位置,透明度40%。可以看到,全部获取到低位误差小于1的RGB颜色。

2023-11-17 20:43:44 646 1

原创 开发一个115以上版本谷歌游览器自动下载驱动的库

针对115以上的谷歌游览器版本,类似ChromeDriverManager可以自动下载谷歌游览器selenium驱动的库来了。一键安装,直接使用~

2023-11-03 11:53:19 826 2

原创 OpenAI接口开发指南

本文先介绍了openai的主要api,然后演示了Function Calling 调用、Embeddings 嵌入、Fine-tuning 微调的操作示例,顺便演示了Prompt编程的示例。

2023-10-17 19:51:01 2027

原创 Python解析MDX词典数据并保存到Excel

下载help.mdx词典后,我们无法直接查看,我们可以使用readmdict库来完成对mdx文件的读取。同时我们可以看到有部分词的描述可能会嵌套列表。

2023-09-12 23:40:17 861

原创 Typora导出的PDF目录标题自动加编号

【代码】Typora导出的PDF目录标题自动加编号。

2023-08-31 19:45:11 923 1

原创 pandas读取Excel核心源码剖析,面向过程仿openpyxl源码实现Excel数据加载

今天我们将研究pandas如何使用openpyxl引擎读取xlsx格式的Excel的数据,并考虑以面向过程的形式简单的自己实现一下。截止目前本人所使用的pandas和openpyxl版本为:这里我使用pycharm工具对以下代码进行debug跟踪:核心就是两行代码:我们研究一下这两行代码所做的事:内容有很多,我们挑一些有价值的内容进行解析。默认传递的参数下,会调用inspect_excel_format函数获取文件的扩展名。直接通过文件名获取的扩展名有可能不真实,我们可以查看的源码,研究pandas判断

2023-04-12 09:03:35 2310 6

原创 批量合并格式不确定的Word文档

需求:有几百个word试题,格式有doc和docx,现需合并为1个word,以便考试时搜索答案。

2023-03-08 19:02:28 804 1

原创 提取Word文档中的Excel附件并识别文件名保存

本文详细讲解了各模块的操作代码,带命名空间的xml解析、easyocr的使用、百度云ocr的使用、xls和xlsx的ole文件提取、openpyxl复制工作簿、xlutils复制工作簿。

2023-03-07 01:33:34 1891 6

原创 微信3.9群友列表提取代码更新

前文:《如今微信更新到3.9.0.28,节点情况有了较大变化。现在更新一下代码。

2023-02-21 15:58:07 1396 2

原创 基于AST的babel库实现js反混淆还原基础案例荟萃

一个菜鸟的倔强,学习js反混淆的入门笔记

2023-02-03 17:30:18 20124 3

原创 Pandas的join和merge到底哪个快

大家好,我是小小明。上次我们的云朵君同学在不严谨的测试下,得出了join可以比merge快5倍的结论。虽然默认参数用法下,join确实比merge快一些,但实际上join并不见得会比merge快。链接:《默认生成1千万条数据,连接字段idx确保唯一。

2023-01-11 19:47:11 921 6

原创 federated引擎实现mysql跨服务器表连接

公司给了多张表在不同的数据库中,一般情况下我们已经无法对这多张表进行表连接查询,而是借助其他编程语言处理。但是如果我们本地有一个开启了federated引擎的MySQL数据库,就可以轻松关联其他MySQL服务器上的表。federated引擎可将本地数据表映射至远程 MySQL 数据表,Federated引擎是基于表级别的,只能将本地数据表定义为 Federated 引擎并映射至远程实体表,无法实现基于库级别的整体映射。对于公司给的多个数据库,我们自己往往没有开启federated引擎的权限,但我们可以在自己

2023-01-09 16:03:32 1145 6

原创 两大js调试工具的安装

nodejs的调试工具node-inspect和浏览器内存漫游工具ast-hook-for-js-RE的安装

2023-01-08 13:15:49 1322 2

原创 SQL速算N日留存

可以看到,就这样轻松的计算出了7日留存率。按照上面SQL的思路可以轻松任意日的留存率。由于用户和登录日期被设置为主键所以不需要再进行去重,下面看看如何快速求七日留存。之前才哥发布了《用SQL进行用户留存率计算》》一文中,其他-》游戏玩法分析5的扩展。SQL刷题宝典-MySQL速通力扣困难题。

2023-01-04 20:48:38 1509 12

原创 SQL刷题宝典-MySQL速通力扣困难题

本人写SQL断断续续也有5年多了,对于刷题这种事情一直都是非常不屑的态度“写SQL这么简单的事情也需要刷?不是看一眼就会了吗?”直到我最近我真的刷了力扣的SQL题,才发现其实还是有太多不熟悉的技巧。最近花了近一个多月的时间,刷完了LeetCode上220道SQL数据库的题,感觉收获还是很多,下面在二刷后整理了本手册。

2023-01-01 07:00:00 17384 13

原创 双11购物的凑单问题与财务凑数问题

对于各类凑单问题,最经典的就是淘宝双十一的满减促销活动,比如“满 200 元减 50 元”。假设你的购物车中有 n 个(n>100)想买的商品,希望从里面选几个,在凑够满减条件的前提下,让选出来的商品价格总和最大程度地接近满减条件(200 元),如何编程解决这个问题?使用传统的编程思路就是使用动态规划,思路如下:购物车中有 n 个商品,针对每个商品都决策是否购买。每次决策之后,对应不同的状态集合。用一个二维数组 states[n][x]states[n][x]states[n][x],来记录每次决策之后所有

2022-12-25 19:01:47 16505 12

原创 Python读取Word文档中的Excel嵌入文件

读取word中的Excel嵌入文件的指定工作表中的指定单元格,两种实现方法。

2022-12-13 22:03:05 16726 8

原创 Python快速计算24点游戏并获取表达式

有4个范围在[1,9]的数字,通过「加、减、乘、除」四则运算能够获得24,认为有解。4个范围在[1,9]的数字能够产生495种可能,其中404中组合情况都是有解的,有解概率高达81.62%。可以看到python计算出9个数字有重复的组合情况数是495。下面我们需要一个方法,判断4个数字能否组合成为24点,这里我采用回溯算法进行计算。

2022-12-01 22:50:55 17331 9

原创 将不规则时间段降雨量拆分合并到整点小时时间段

一份数据集描述每个站点在各个时间段内的总降雨量,可以将这个时间段的每分钟平均降雨量视为这1分钟的降雨量,最终整理合并出按整点小时统计的降雨量。例如结果是6:00-7:00,7:00-8:00等。但是原始数据集有上百万条,经过这样处理后可能出现上亿条中间数据,很可能导致内存不足。所以我出场使用一些几乎不使用额外内存的巧妙方式。咱们的测试数据共48万条。可以很明显的看到角标11到角标12的时间段再按小时拆分后存在重叠时间段,需要合并。然后重采样到小时的单位。

2022-10-28 20:53:10 16078 5

原创 从C#到Python手把手教你用Python实现内存扫描获取指定字符串

Python扫描内存中字符串获取数据的方法。

2022-10-28 15:54:59 17944 9

原创 2048网页版游戏高分插件代码分享

分享2048游戏拿下任意分数的方法。

2022-10-25 18:53:34 27679 17

原创 Python&JS宏 实现保留样式合并表格后拆分

将所有表格的数据区域合并起来,第二列要插入当前年月,之后再对合并后的总表使用业务员进行拆分,整个操作要求保留原始数据的所有样式,包括颜色和合并单元格等。

2022-10-21 09:24:19 16778 10

原创 upload-labs通关

最近,我有个朋友老是反映部署的网站老是被黑客攻击,我看了下就是普通的PHP框架搭建的网站,经过一番排除也清除了木马。为此我专门花1天时间研究一下文件上传漏洞,知己知彼方能百战百胜。这里我选择了一个开源的靶场upload-labs。

2022-10-19 23:13:52 16986 12

原创 二道题:分组顺序向下填充 和 标注数据整理

之前群友分享这样一道Pandas题:应用pandas模块,导入“python_test.xlsx”的excel中的表格数据(2个sheet)要求:将sheet1表数据中Code_A字段按照下列规则替换为sheet2表数据中对应的Code_B字段。替换规则:1)、先按City,Year,Month,MonthSort升序排序,然后根据City,Year,Month,MonthSort匹配对应行进行替换。

2022-10-02 12:17:08 21070 4

原创 JS宏综合示例-多维度筛选统计(带窗体)

客户每天都有一份类似如下结构的数据:但是实际数据远不止这些列,列的顺序也完全随机。要求:虽然列位置不固定,但是客户能够保证列名是固定。那么我们可以实现自动查找对应列所在的位置。打开宏编辑器,测试如下代码:运行代码,立即窗口中显示结果:可以看到已经顺利实现了自动查找对应列位置。然后我们先考虑使用输入框简单实现:运行后,随意测试一组车牌:点击确定后,立即窗口打印结果如下:测试完成,后续可以通过该数组进行车牌过滤。后续客户希望输入框能够提示数据表中存在的车牌列表进行提示,于是我们可以设计窗体来实现。在宏编

2022-10-01 21:56:42 22328 13

原创 WPS JS宏入门案例集锦

几个入门wps js宏的小案例,以及JavaScript语法补充

2022-09-28 21:55:54 42454 19

原创 WPS增加正则处理函数,简直如虎添翼

2020年我演示了给office的Excel增加正则处理函数,文本处理瞬间变得记得简单。今天我使用JS宏开发正则处理函数,对于只安装WPS的电脑上使用会更方便。

2022-09-28 20:16:23 30008 26

原创 WPS JS宏示例-批量添加链接

原始数据如下:共1.2万多条数据,现在我们需要给来源网址添加可以点击到目标网址的链接,并通过HS编码生成详情页链接。最终生成效果如下:这个案例用Python实现会很简单,但是我们可以通过这个简单的例子练习js宏的使用,由易到难。视频学习资料:API文档:另外是必须懂JavaScript语言的语法,本人对JavaScript语言的熟练程度远高于VB,所以WPS宏的js宏也相对写的非常顺手舒服。JavaScript文档教程推荐:有宏录制功能,即使在不查API文档的情况下,也能清楚知道一些操作代码。比如我们不知道

2022-09-25 14:40:42 23395 7

原创 AQI空气质量分析与预测

AQI全称是Air Quality Index,指空气质量指数,用来衡量空气清洁或者污染的程度,值越小,表示空气质量越好。一、描述性统计二、推断统计三、相关系数分析四、区间估计五、统计建模本文理论基础可参考:描述性统计、参数估计和假设检验https://xxmdmst.blog.csdn.net/article/details/115410809本文目录:导包并读取数据:数据集描述:数据集下载地址:https://gitcode.net/as604049322/blog_data对于缺失值,我们可以使用如

2022-09-23 18:17:56 71367 114

原创 群友讨论:Pandas与MySQL求解经销商会话时间相关的问题

详细优雅的解题思路,非常值得一看。

2022-09-09 22:11:01 21192 13

原创 以深圳为例Python一键生成核酸检测日历

自从最近深圳又有疫情后,现在每天都要做核酸,嗓子都快做冒烟了。基于此我觉得有必要用程序生成自己的核酸检测日历。首先,我们需要从深i您-自主申报的微信小程序中提取自己的核酸检测记录,然后使用绘图库自动绘制检测日历。

2022-09-07 08:22:42 44254 22

原创 分类模型评估的实际编码与逻辑回归可视化

从实际编码的角度出现看看如何用代码评价分类模型的好坏。

2022-09-02 22:47:37 21425 11

原创 递归合并PDF按文件夹和文件名生成目录

一文中分享了一个GUI小工具,不过合并功能局限在一个文件夹之内。今天我们递归合并PDF并根据文件夹和文件名生成目录,这样非常方便阅读。

2022-09-01 17:29:32 20591 15

原创 基于编辑距离纯逻辑实现相似地址聚类

香港公司发来的账单中,有很多相对的地址却使用的不同的派送方式采用了不同的收费,这部分数据明显存在问题需要与香港公司进行确认。上图中展示了一种极度简单的情况,只需要将文本所有空格去掉即可找出来,但是部分地址是仅仅差几个汉字字符仍然是相同的地址,为了最高的准确度我们使用编辑距离计算地址间的相似度更佳。这篇文章的方法优势在于几百万条地址数据时也能快速计算出结果,但是不调参的情况下准确性一般,调参操作比较复杂。仅0.5秒的时间已经计算出结果,共689地址出现重复,其中有183个不同的地址。前面已经写过一篇文章:《.

2022-08-31 15:46:53 20748 19

原创 快速采集微信联系人昵称列表并转发多条消息

时隔大半年,由于PC端微信界面元素的修改之前的很多代码已经无法直接使用,今天我们基于最新微信3.7.6.29版本,完成通讯录昵称获取的操作,并批量转发多条消息。首先我们采集自己的微信联系人:完整代码:十几秒钟采集完几千个非群聊的昵称信息。下次可以直接读取该列表,无需重复采集:发送需要转发的消息到文件传输助手在群发消息前,我需要先将消息发送给某个聊天窗口,可以选择自己或文件传输...

2022-08-28 17:53:01 20708 16

原创 PC端微信HOOK并与Python对接

一款基于易语言开发的微信HOOK框架DaenWxHook,内存级别控制PC端微信。

2022-08-17 14:59:42 24670 29

原创 Python读取本地HTML中的canvas以图片形式存入Word文档

Python读取本地HTML中的canvas以图片形式存入Word文档

2022-08-15 08:59:28 20701 11

原创 Python将图片转换为ASCII字符画

教你如何使用python将图片转为字符画

2022-08-14 20:54:41 21874 21

决战Linux到精通.pdf

https://xxmdmst.blog.csdn.net/article/details/120446586这篇文章的PDF版本

2021-09-24

2021年55万条IP地址库

字段说明: StartIPText 起始IP StartIPNum 起始IP数值 EndIPText 结束IP EndIPNum 结束IP数值 Country 国家/地区 Local 本地/地址

2021-07-14

[小小明]Python正则表达式全套笔记v0.3(1.8万字干货).pdf

本文档是小小明个人的学习笔记,涵盖了正则表达式的各个方面,包括各种模式、分组、断言。 正则的匹配、查找、替换和切割一节包含各种典型的实际案例,各类使用场景。 正则匹配规则表,方便我们随时查询正则的规则,即使我自己也无法保证把那些规则全部记住,使用时 需要随时回来查询。 贪婪模式和非贪婪模式部分顺便简单讲解了正则匹配的基本原理(NFA和DFA,在2.3和3.2两个章 节)。 会员阅读地址:https://blog.csdn.net/as604049322/article/details/112691043 作者的博客地址:https://blog.csdn.net/as604049322

2021-01-17

python调用go或c语言.pdf

Python是一个生产力很高的语言,能够以最高的效率完成最多的事,但是Python的性能,是我们一直诟病的一个问题,尤其是一个大锁GIL。当然现在大部分程序都是(IO)网络密集型程序,Python足以胜任,但是如果说我们已经存在的项目或者想要开发的项目中,存在有计算密集型的程序场景,该如何提升性能呢? ​ 一般是可以用C\C++重写Python计算密集的地方,来提高性能,但是C\C++是有一些学习成本的,指针和自己释放内存都有一定门槛。Go就很方便了,自动垃圾自动回收,还有天生高并发等优势。 ​ python的ctypes模块提供了和C语言兼容的数据类型和函数来加载so/dll动态链接

2021-01-01

docxtpl使用手册

一个强大的包docxtpl ,它通过对docx文档模板加载,使用jinja2网页模板开发的语法对其进行修改。 docxtpl 的作者开发出它的原因主要是python-docx擅长创建word文档,却不擅长修改。 对于docxtpl来说,使用MicrosoftWord编辑文档时,直接在文档中插入类似于Jinja2的标记。将文档保存为.docx文件(XML格式):它将是.docx模板文件。 然后使用docxtpl加载这个.docx模板、

2020-12-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除