
python
文章平均质量分 82
小小明-代码实体
高阶数据处理玩家带你高端姿势玩数据!!!关注我发现更多精彩~
展开
-
速刷DuckDB官网24小时-掌握核心功法
duckdb是一个非常高级的数据处理工具,与pandas各类数据分析工具均可以无缝衔接。本文带你快速掌握DuckDB的各种高级用法。原创 2024-09-25 21:25:58 · 2760 阅读 · 0 评论 -
PDF文本指令解析与文本水印去除
上次我在《PDF批量加水印 与 去除水印实践》一文中完成了对图片水印和文字水印的去除。但是对于页面对象的内容对象是单层,不是数组的情况,无法去除水印。今天我们专门研究PDF的文本绘制指令,并尝试去除这种水印。原创 2024-08-30 18:02:33 · 1771 阅读 · 0 评论 -
Python读取任意格式的剪切板内容
Python解析剪切板原创 2024-08-23 12:18:28 · 724 阅读 · 1 评论 -
python实现微信聊天图片DAT文件还原
支持递归处理,不指定结果文件夹时,结果将写入into_path+"CovertImage"目录下。原创 2024-08-01 17:20:39 · 594 阅读 · 0 评论 -
Python-docx将Word文档的目录或文本框作为普通段落读入
读取非普通段落文本的思路,以后能举一反三。原创 2024-06-13 13:58:17 · 1433 阅读 · 0 评论 -
PDF批量加水印 与 去除水印实践
我们可以给PDF加图片水印或文字水印,要去除图片水印,一般只需要删除最后一个图片对象即可。要去除文字水印,需要保证主体内容和文字水印在/Contents中位于不同的对象内,这样我们只需要删除文字水印对应的对象即可删除水印。而对于主体内容和文字水印已经混合在一个对象时,本文的提供的方法则无能为力,需要进一步深入分析PDF细节。原创 2024-06-05 22:19:54 · 1990 阅读 · 4 评论 -
Python优雅重启谷歌游览器并过cf
python如何优雅的重启谷歌游览器并接管控制权,start命令启动不在环境变量中的命令的原理,过cf检测的两种操作。原创 2023-12-06 15:59:17 · 1261 阅读 · 1 评论 -
OpenAI接口开发指南
本文先介绍了openai的主要api,然后演示了Function Calling 调用、Embeddings 嵌入、Fine-tuning 微调的操作示例,顺便演示了Prompt编程的示例。原创 2023-10-17 19:51:01 · 16757 阅读 · 0 评论 -
Python解析MDX词典数据并保存到Excel
下载help.mdx词典后,我们无法直接查看,我们可以使用readmdict库来完成对mdx文件的读取。同时我们可以看到有部分词的描述可能会嵌套列表。原创 2023-09-12 23:40:17 · 2142 阅读 · 0 评论 -
Typora导出的PDF目录标题自动加编号
【代码】Typora导出的PDF目录标题自动加编号。原创 2023-08-31 19:45:11 · 1741 阅读 · 1 评论 -
pandas读取Excel核心源码剖析,面向过程仿openpyxl源码实现Excel数据加载
今天我们将研究pandas如何使用openpyxl引擎读取xlsx格式的Excel的数据,并考虑以面向过程的形式简单的自己实现一下。截止目前本人所使用的pandas和openpyxl版本为:这里我使用pycharm工具对以下代码进行debug跟踪:核心就是两行代码:我们研究一下这两行代码所做的事:内容有很多,我们挑一些有价值的内容进行解析。默认传递的参数下,会调用inspect_excel_format函数获取文件的扩展名。直接通过文件名获取的扩展名有可能不真实,我们可以查看的源码,研究pandas判断原创 2023-04-12 09:03:35 · 3075 阅读 · 6 评论 -
提取Word文档中的Excel附件并识别文件名保存
本文详细讲解了各模块的操作代码,带命名空间的xml解析、easyocr的使用、百度云ocr的使用、xls和xlsx的ole文件提取、openpyxl复制工作簿、xlutils复制工作簿。原创 2023-03-07 01:33:34 · 3259 阅读 · 7 评论 -
Pandas的join和merge到底哪个快
大家好,我是小小明。上次我们的云朵君同学在不严谨的测试下,得出了join可以比merge快5倍的结论。虽然默认参数用法下,join确实比merge快一些,但实际上join并不见得会比merge快。链接:《默认生成1千万条数据,连接字段idx确保唯一。原创 2023-01-11 19:47:11 · 1441 阅读 · 6 评论 -
双11购物的凑单问题与财务凑数问题
对于各类凑单问题,最经典的就是淘宝双十一的满减促销活动,比如“满 200 元减 50 元”。假设你的购物车中有 n 个(n>100)想买的商品,希望从里面选几个,在凑够满减条件的前提下,让选出来的商品价格总和最大程度地接近满减条件(200 元),如何编程解决这个问题?使用传统的编程思路就是使用动态规划,思路如下:购物车中有 n 个商品,针对每个商品都决策是否购买。每次决策之后,对应不同的状态集合。用一个二维数组 states[n][x]states[n][x]states[n][x],来记录每次决策之后所有原创 2022-12-25 19:01:47 · 16916 阅读 · 12 评论 -
Python读取Word文档中的Excel嵌入文件
读取word中的Excel嵌入文件的指定工作表中的指定单元格,两种实现方法。原创 2022-12-13 22:03:05 · 17761 阅读 · 10 评论 -
Python快速计算24点游戏并获取表达式
有4个范围在[1,9]的数字,通过「加、减、乘、除」四则运算能够获得24,认为有解。4个范围在[1,9]的数字能够产生495种可能,其中404中组合情况都是有解的,有解概率高达81.62%。可以看到python计算出9个数字有重复的组合情况数是495。下面我们需要一个方法,判断4个数字能否组合成为24点,这里我采用回溯算法进行计算。原创 2022-12-01 22:50:55 · 18102 阅读 · 9 评论 -
从C#到Python手把手教你用Python实现内存扫描获取指定字符串
Python扫描内存中字符串获取数据的方法。原创 2022-10-28 15:54:59 · 19059 阅读 · 9 评论 -
群友讨论:Pandas与MySQL求解经销商会话时间相关的问题
详细优雅的解题思路,非常值得一看。原创 2022-09-09 22:11:01 · 21318 阅读 · 13 评论 -
分类模型评估的实际编码与逻辑回归可视化
从实际编码的角度出现看看如何用代码评价分类模型的好坏。原创 2022-09-02 22:47:37 · 21835 阅读 · 11 评论 -
递归合并PDF按文件夹和文件名生成目录
一文中分享了一个GUI小工具,不过合并功能局限在一个文件夹之内。今天我们递归合并PDF并根据文件夹和文件名生成目录,这样非常方便阅读。原创 2022-09-01 17:29:32 · 20982 阅读 · 15 评论 -
基于编辑距离纯逻辑实现相似地址聚类
香港公司发来的账单中,有很多相对的地址却使用的不同的派送方式采用了不同的收费,这部分数据明显存在问题需要与香港公司进行确认。上图中展示了一种极度简单的情况,只需要将文本所有空格去掉即可找出来,但是部分地址是仅仅差几个汉字字符仍然是相同的地址,为了最高的准确度我们使用编辑距离计算地址间的相似度更佳。这篇文章的方法优势在于几百万条地址数据时也能快速计算出结果,但是不调参的情况下准确性一般,调参操作比较复杂。仅0.5秒的时间已经计算出结果,共689地址出现重复,其中有183个不同的地址。前面已经写过一篇文章:《.原创 2022-08-31 15:46:53 · 21068 阅读 · 19 评论 -
Python读取本地HTML中的canvas以图片形式存入Word文档
Python读取本地HTML中的canvas以图片形式存入Word文档原创 2022-08-15 08:59:28 · 21075 阅读 · 11 评论 -
Python将图片转换为ASCII字符画
教你如何使用python将图片转为字符画原创 2022-08-14 20:54:41 · 22224 阅读 · 22 评论 -
OR-Tools求解仓库选址和钢材取料问题
解决制造业常见的仓库选址问题和钢管切割问题原创 2022-08-13 20:46:38 · 22321 阅读 · 18 评论 -
数字与中文大写数字互转(5千万亿亿亿亿以上的数字也支持转换)
数字与中文大写数字互转,5千万亿亿亿亿以上的数字也支持转换原创 2022-08-08 21:15:39 · 29314 阅读 · 22 评论 -
Python探索金庸小说世界
本文从金庸小说数据的采集,到普通的频次分析、剧情分析、关系分析,再到使用词向量空间分析相似关系,最后使用scipy进行所有小说的各种层次聚类。收获多多,干货满满。原创 2022-08-07 17:24:24 · 40758 阅读 · 27 评论 -
相似文本聚类与调参
将相似的文本聚合到一起原创 2022-08-03 23:35:39 · 28349 阅读 · 16 评论 -
批量替换Word中的表格为图片并保存
批量替换Word中的表格为图片并保存原创 2022-07-31 18:53:49 · 27765 阅读 · 15 评论 -
通过企业微信自建应用向微信推送信息
通过企业微信自建应用向微信推送信息,无限次数突破方糖的次数限制原创 2022-07-20 18:14:53 · 29128 阅读 · 23 评论 -
Pandas向本地Excel已存在的工作表追加写入DataFrame
Pandas向本地Excel已存在的工作表sheet追加写入DataFrame原创 2022-07-12 11:42:39 · 36944 阅读 · 20 评论 -
Python模拟锟斤拷等各类乱码
一文搞懂各类乱码出现的成因原创 2022-07-06 20:03:21 · 28300 阅读 · 15 评论 -
使用MitmProxy离线缓存360度全景网页
有些涉及动态加载的网页,有游览器自带的保存网页功能是无法保存全部资源的。假如我们手工挨个文件去保存,未免也太多了:超多的文件夹,一层一层的。此时我为了实现离线缓存目标网页,想到了一个好方法,那就是通过支持python编程的代理,让每一个请求都根据URL保存对应的文件到本地。...原创 2022-07-05 12:15:11 · 34503 阅读 · 20 评论 -
自动更新Selenium驱动chromedriver
由于谷歌游览器经常自动更新导致selenium驱动失效需要重新下载,为了方便,所以我们需要让代码自动更新selenium驱动。原创 2022-06-30 14:57:45 · 25650 阅读 · 24 评论 -
matplotlib动画演示:细胞自动机-探索生命起源
📢博客主页:https://blog.csdn.net/as604049322📢欢迎点赞 👍 收藏 ⭐留言 📝 欢迎讨论!📢本文由 小小明-代码实体 原创,首发于 CSDN🙉维基百科上有个有意思的话题叫细胞自动机:https://en.wikipedia.org/wiki/Cellular_automaton在20世纪70年代,一种名为生命游戏的二维细胞自动机变得广为人知,特别是在早期的计算机界。由约翰 · 康威发明,马丁 · 加德纳在《科学美国人》的一篇文章中推广,其规则如下:Any l.原创 2022-04-20 22:48:13 · 30009 阅读 · 40 评论 -
使用整数规划进行多条件数据分配
之前遇到了这样一个问题:总结就是,将一批名单分成两组使得产品个数和销售额尽可能相等。单纯的平分销售额或者平分产品个数会非常简单,但是要求两个维度同时进行就比较复杂,观察可以看到销售额的数字远远高于产品个数,我们可以先控制要求产品个数相等的情况下,找出销售额相差最小的方案,如果销售额相差较大,可以降低产品个数相差要求再看。慢慢提高相差范围,最终凭感性找出一个比较平衡的值。首先读取数据(复制下面的表格后再执行下面的代码即可得到相同的数据):import pandas as pdimport nump原创 2022-04-18 23:38:07 · 15821 阅读 · 24 评论 -
OR-Tools官档中文用法大全(CP、LP、VRP、Flows等)
前面我介绍了z3求解器(SMT)和PuLP,前者可以求出指定约束条件下的可行解,后者可用于线性规划求解。链接:z3求解器https://blog.csdn.net/as604049322/article/details/120279521使用Python进行线性规划求解https://blog.csdn.net/as604049322/article/details/120359951今天我要介绍的是谷歌开发的用于解求解最优化问题的软件OR-Tools:OR-Tools简介它主要包含以下4原创 2022-04-15 21:04:43 · 24402 阅读 · 18 评论 -
Python调用nodejs将html转换为Markdown
关于前端HTML转换为Markdown,发现了一个非常好用的npm项目:https://sitdown.mdnice.com/zh-hans/首先确保本机已经安装nodejs,并根据下面的文章安装execjs并修改其源码:execjs执行包含中文参数的JavaScripthttps://xxmdmst.blog.csdn.net/article/details/123099139在python所在目录安装sitdown:> npm install sitdownadded 2 pac原创 2022-02-24 16:48:17 · 14129 阅读 · 28 评论 -
execjs执行包含中文参数的JavaScript
抓取到了一段包含数据的JavaScript代码:import reimport requestsheaders = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36", "accept": "text/html,application/xhtml+xml,application/x原创 2022-02-23 20:56:28 · 14472 阅读 · 15 评论 -
PySpark求解连通图问题
前文回顾:PySpark与GraphFrames的安装与使用https://xxmdmst.blog.csdn.net/article/details/123009617networkx快速解决连通图问题https://xxmdmst.blog.csdn.net/article/details/123012333前面我讲解了PySpark图计算库的使用以及纯python解决连通图问题的两个示例。这篇文章我们继续对上次的连通图问题改用PySpark实现。需求1:找社区刘备和关羽有关系,说明他原创 2022-02-20 21:31:26 · 18260 阅读 · 42 评论 -
networkx快速解决连通图问题
需求1:找社区有一份数据部分如下,比如:刘备和关羽有关系,说明他们是一个团伙,刘备和张飞也有关系,那么刘备、关羽、张飞归为一个社区,以此类推。在python中这是典型的查找连通图的问题,直接的思路是使用现成的包直接调用求解连通图的算法即可。import networkx as nxg = nx.Graph()data = [ ['刘备', '关羽'], ['刘备', '张飞'], ['张飞', '诸葛亮'], ['曹操', '司马懿'], ['司马懿',原创 2022-02-18 22:44:16 · 15365 阅读 · 30 评论