风暴之零-CSDN博客

原创变点检测算法PELT

直接穷举所有可能的变点组合是不可行的（复杂度为 O(2的n次方）。在实际应用中，PELT因其在准确性和效率之间的出色平衡，已成为变点检测领域的主流和基准算法之一。注意β不是变点的数量，他是变点数量的系数，上面公式中的m才是变点数量。这个函数是PELT灵活性的关键，可以根据检测目标的不同而选择不同的模型，例如均值、方差、AR、核方法（如RBF核），视为一个独立的、统计特性稳定的区间，这个假设的“错误程度”或“代价”有多大。β越大：算法越“保守”，检测出的变点越少（宁可漏掉，绝不误报）。

2026-02-06 16:33:49 575

原创卡尔曼滤波学习

卡尔曼滤波（Kalman Filter）是一种在存在不确定性的情况下对系统状态进行估计和预测的强大工具。它的核心思想是通过数据融合的方法，结合预测值和测量值，得到更准确的观测结果。KkPk∣k−1HTHPk∣k−1HTR−1KkPk∣k−1HTHPk∣k−1HTR−1KkK_kKk：第k时刻的卡尔曼增益Pk∣k−1P_{k|k-1}Pk∣k−1。

2025-11-07 14:39:18 865

原创文本中地理位置提取方法—正则和NLP模型

3、对"D:\data\rs\后处理\d.xlsx" 每一行，读取”相似地址列表“列形成成一个列表，对列表中的每个元素与"D:\data\rs\后处理\d.xlsx" 原地址列的内容进行比较，比较的原则为 “D:\data\rs\后处理\合并结果12.xlsx"的这两个元素的重复个数。5、遍历"D:\data\rs\后处理\d.xlsx” 每一行，并在"D:\data\rs\后处理\合并结果12.xlsx"完成替换后形成新表。4、“村的住户”、“的村民”字符串及之后去掉（后面肯定不是地址）

2025-05-02 22:36:53 1524

原创使用MGeo模型高精度实现文本中地址识别

大多数传统CPU（如Intel Skylake或更早架构）不支持INT8加速指令集（如AVX512-VNNI），导致INT8运算需通过软件模拟，反而增加计算开销。这里我们按照输出中的’start’: 0, ‘end’: 3,即在输入文本中的位置来确定是原数据的哪一行，即通过输出词在输入文本的位置推导出输出词在原文本的位置。**模型推理速度增强：**由于模型能够对128个字以内的数据进行高精度的处理，因此我们把多行在一起推理。2、怎么加速，模型支持CPU和GPU，对于CPU使用需要做优化提升推理速度。

2025-05-01 22:26:38 1606

原创 wordcloud和stylecloud绘制词云图和指定位置

在WordCloud库中，虽然没有直接提供重载类并精确指定词位置的功能，但你可以通过自定义生成器（wordcloud.WordCloud.generate_from_frequencies）和修改绘图方法来间接实现。您可以使用免费的 Font Awesome 图标来更改形状，将调色板更改为自定义样式的调色板，更改背景颜色，最重要的是，添加渐变，使颜色沿指定方向流动！stylecloud 是一个 Python 包，它利用流行的 word_cloud 包，添加有用的功能来创建真正独特的词云！

2025-04-23 16:45:05 972 1

原创使用大语言模型进行Python图表可视化

Python使用matplotlib进行可视化一直有2个问题，一是代码繁琐，二是默认模板比较丑。因此发展出seaborn等在matplotlib上二次开发，以更少的代码进行画图的和美化的库，但是这也带来了定制化不足的问题。在大模型时代，这个问题有了另一种解法，即使用大模型直接生成代码，解决了代码繁琐（代码虽长但不用手写）的问题。

2025-03-31 16:36:35 2689 1

原创强化学习基础

强化学习的主要对象为智能体(agent)、环境(environment)、动作(actions)、状态(states)和奖励(rewards)。智能体通过与环境交互，每步的交互会生成新的状态和得到环境给的奖励，通过一定的算法得到一个奖励最大的策略。设计强化学习的要素包括四个，通过状态、动作的不断交互和奖励的计算，以长期奖励最大化或者达到约束条件为终止条件，最终得到最优策略。奖励（Reward）：一个数值反馈，用于量化智能体采取某一动作后环境的反应。动作（Action）：智能体在特定状态下可以采取的操作。

2025-02-19 17:48:38 440

原创大模型的量化和显存计算

Quantization （量化技术）在机器学习和深度学习领域是一种用于降低计算复杂度、减少内存占用、加速推理的优化方法。特别是目前模型越来越大的情况下，如deepseek的671模型，GTP5中预计到1T的模型。量化的核心目标是将模型中的浮点数权重和激活值转换为低精度数值表示，同时保持模型的准确性和性能尽可能不受影响。更具体一点来说，量化通过使用更小的数据类型（如 INT8、FP16 等）表示模型中的权重和激活值，而不是标准的 32 位浮点数。浮点数用于表示小数或非常大的数字。

2025-02-18 12:46:09 1292

原创将markdown文件和LaTex公式转为word

1. 项目介绍pypandoc 是一个用于 pandoc 的轻量级 Python 包装器。pandoc 是一个通用的文档转换工具，支持多种格式的文档转换，如 Markdown、HTML、LaTeX、DocBook 等。pypandoc 通过提供一个简单的 Python 接口，使得在 Python 脚本中调用 pandoc 变得更加方便。2. 安装自动下载 Pandoc并安装注意：pypandoc 提供了两个包：pypandoc：需要用户自行安装 pandoc软件才能使用。

2025-01-31 10:47:04 2110

原创图像超分，提高图像分辨率的方法和工具

图像超分是一种图像处理技术，旨在提高图像的分辨率，使其具有更高的清晰度和细节。这一技术通常用于图像重建、图像恢复、图像增强等领域，可以帮助我们更好地理解和利用图像信息。图像超分技术可以通过多种方法实现，包括插值算法、深度学习等。其中，深度学习的方法在近年来得到了广泛的关注和应用。基于深度学习的图像超分技术，可以利用深度神经网络学习图像的高频部分，从而提高了图像的分辨率和清晰度。

2025-01-13 12:39:07 2046

原创写材料word和PPT格式设置

4、修改格式：仿宋、正文统一为小三，标题三号，1.5倍行距，加页码。2、参考GPT改：内容、逻辑结构、语句。

2024-07-15 11:21:10 741

原创 streamlit 学习

4、通过subprocess 库，将上述的三步写成python文件。运行该文件后即可启动页面，并且该方式没有命令行的黑框。3、在程序运行期间，需要保障命令行不关闭否则会出现连接不上的问题。2、在cmd中运行python 文件，启动一个网页。命令 cd D:\code\streamlit。1、先切换目录到Python文件放置的目录下。修改py文件并保存后，刷新网页即可。

2024-05-20 09:49:25 598

原创 Python制作精美表格

在matplotlib中，linestyle参数接受一个元组(offset, (on, off))，其中on表示线段的长度，off表示间隙的长度，而offset是线段开始前的偏移量，一般默认为0。如果你希望得到较长的线段和较短的间隙交替的虚线效果，可以增大on相对于off的值。1、原始数据数量较少，可以一屏展示。这个库会将原始表格的所有数据都放到一个图片里，数据太多展示效果较差。plottable是一个基础matplotlib的绘制精美图形表格的库。奇偶行设置不同的颜色，让表格看起来有层次感。

2024-04-30 16:33:31 1109

原创典型神经网络模型—自编码器

在神经网络中，编码器（Encoder）是一种用于将输入数据转换为另一种形式的网络组件或模型部分。编码器的核心任务是将原始数据压缩或转换为一种更紧凑、更具代表性的形式，通常是为了便于存储、传输或进一步的分析处理。编码器的模型在编码器中最常见的是自编码器，可以起到数据压缩和降维的作用，相比于PCA他可以完成非线性的降维。

2024-04-10 12:50:31 2664

原创自注意力机制的理解

自注意力机制实际上是注意力机制的一种，它也是一种网络的构型，它想要解决的问题是网络接收的输入是很多向量，并且向量的大小也是不确定的情况，比如机器翻译（序列到序列的问题，机器自己决定多少个标签），词性标注（Pos tagging 一个向量对应一个标签），语义分析（多个向量对应一个标签）等文字处理以及图像处理中。2.1、生成查询、键和值：对于每一个输入嵌入向量（例如，每一个词向量），通过线性变换（或称为权重矩阵乘法）生成对应的查询向量（Query, Q）、键向量（Key, K）和值向量（Value, V）。

2024-03-19 17:41:32 2232

原创使用Spacy做中文词频和词性分析

在没有GPU的情况下，模型推理巨慢无比，可以考虑使用以下的多进程方式，其中nlp = spacy.load(‘zh_core_web_trf’)可能无法pickle，需要放入analyze_text(paragraph_text, nlp)函数内部。需要确保你的Spacy版本是最新的，因为zh_core_web_trf是一个基于transformer的模型，因为它包含了整个transformer模型。zh_core_web_trf模型，模型大，准确性高。1、为什么选择Spacy库。

2024-02-15 18:06:45 1595 3

原创设置打印机

一、打开控制面板的设备和打印机选项。四、使用IP地址或主机名添加打印机。二、点击其中的添加打印机选项。三、点我所需的打印机未列出。

2024-02-07 14:07:04 1613

原创视频业务像素、带宽、存储空间计算

1小时的秒数)×24(单位：小时;一天的时间长)×30(保存的天数)×50监控点要保存摄像机录像的总数)÷0.9(磁盘格式化的损失10%空间)=所需存储空间的大小(注：存储单位换算1TB=1024GB;1MB=1024KB)1路存储1天的720P(100万像素)视频格式录像信息的存储空间所需大小为：256×3600×24×1×1÷0.9÷1024÷1024=23.44GB。1路存储1天的1080P(200万像素)视频格式录像信息的存储空间所需大小为：512×3600×24×1×1÷0.9=46.88GB。

2024-02-04 17:07:21 12379

原创繁体字转换为简体字

读取txt,将繁体字转换为简体字。

2024-02-02 10:00:40 1567

原创 flask框架制作前端网页作为GUI

您将看到一个包含三个按钮的页面，每个按钮都链接到一个表单，用于上传本地文件。读取文件到app文件夹下并将文件名写入对应的txt文件（现代浏览器不允许获取本地路径），后续通过读入txt的文件名来拼接路径，读取app文件夹下的文件。templates/：模板文件目录，用于存放应用的HTML模板文件。创建一个名为templates的目录，并在其中创建一个名为index.html的文件。README.md：应用的说明文档，包含了应用的运行方法、配置说明等。app.py：应用的入口文件，包含了应用的初始化和配置。

2024-01-27 21:55:01 1609

原创 pandas增强—数据表的非等式连接、条件连接、upsert

主要是对空值、列的增删的处理，和各个行业（如金融）等封装的清洗方法。2、使用pandas的功能增强库pyjanitor 库的 conditional_join 函数，既节省内存又不损性能；2、对于时间序列可以使用asof来连接。缺点是功能受限，不是所有的条件筛选都能用asof，特别是非时间序列的情况下。该方案的有优点是代码和pandas高度兼容，如果只做简单的不等连接可以使用，复杂的条件还需要DuckDB。对于使用到的pyjanitor 库，它是一个从R迁移来的python库，主要有以下3方面的功能。

2024-01-13 22:02:03 1222 1

原创 PDF操作，PDF提取文字并统计词频—快速预览PDF报告，

1、 PyMuPD网上有许多资料，但是多数比较老，这个模块的API已有变动，本文做了更新。本模块安装需要pip install PyMuPDF，但是导入是fitz。该库不支持python3.10以上版本。，注意这两个库暂时不支持python3.10以上的版本，主要是paddleocr依赖的PyMuPDF不支持python3.10以上版本。有许多PDF是图片格式，并不能直接提取文字。本文采取PDF转图片，并通过OCR识别文字生成文本，进而统计文本的词频的方式进行快速预览。读取结果、使用结巴分词，并统计词频。

2024-01-12 19:37:27 1727

原创配色方案参考

二、调色板界的palettable也可以参考、可以用在seaborn上。这篇文章的第三和第四部分——单配色。这篇文章的配色方案—组合配色。

2024-01-07 00:33:22 2194

原创文章链接-用于快速查询

1、使用python电脑轻量级控制手机—adb命令和手机投屏。1、draw.io基础操作和代码高效画图进阶。

2024-01-06 19:16:46 722

原创 draw.io基础操作、大模型代码高效画图和批量操作图形

实现方法1：鼠标放在图形边缘等待出现蓝色箭头，鼠标左键点击图形上的箭头。如果拖动其中一个图形的话，固定链接的形状会自动变为直线连接。如果拖动其中一个图形的话，固定链接的形状会是曲线连过去。鼠标放在图形上，点击出现的箭头，会自动出常用图形。点击第二张图中红圈的黄点，改变成图标的形状。上面左边出现绿圆点+鼠标左键点击图形的。2、shift+小蓝点等比例拖动。不放+拖动链接另外一个图形的。ctrl+拖动鼠标快速复制。ctrl+c/v 复制+粘贴。+拖动链接到另外一个图形+1.1、自动连接图形。

2023-12-29 22:55:27 38672 2

原创 python 文本纠错库pycorrector的使用（API变更，许多介绍文章已不可用）

pycorrector是一个nice的中文检测库，在最新的版本API变更，导致许多之前的介绍文章不可用。现将新API粘贴如下。

2023-11-14 12:47:24 2256 2

原创使用python电脑轻量级控制手机—adb命令和手机投屏

输入adb pair 手机IP:端口后会自动弹出输入配对码的命令行，输入下图红色的配对码即可。通过电脑控制手机有多种方式如appnium等，本文介绍的是两种轻量级的方案，使用adb命令刚和手机投屏。在手机上打开开发者选项，启用显示指针位置或显示触摸位置选项。2.1、adb pair 手机IP:端口，下图蓝色部分的ip和端口。3、使用pyautogui等屏幕点击库控制投屏区域，进而控制手机。控制多个手机 adb -s id 命令。控制一个手机 adb 命令。通过adb 命令控制手机。1、adb 连接手机。

2023-11-12 21:40:00 5788

原创使用Python批量操作PPT—修改字体、提取文字到word、插入图片、合并多个PPT

只能修改英文和数字，并且run.font.name识别的也是英文和数字的名称。因为这个包，没有针对汉字的API，而且这个包很久没更新了，开发者提供了解决思路是修改office文件的底层xml来实现，修改xml中的a:ea的typeface属性，网上已经有人用 pptx_ea_font 这个包实现了该功能。将一份PPT的每一页字体、大小、是否加粗都统一，是一个常见需求。在python操控PPT常用库python-pptx中有一个bug，对字体的修改只能修改数字和英文字母，无法修改汉字。

2023-10-29 16:45:28 2933 4

原创十天通过软考之计算题

2、将波浪线上的活动（注意有时是活动组（入下图的BD B是D的紧前，B和D都可以移动，但是D肯定在B后面））自由移动，求准确的最小人数。β分布，一次实验的结果只有0和1两个选项（伯努利实验），已经观察到a 次0 和b 次1 ，估算出来的分布。自由时差：代表最大可支配时间为 min（紧后活动的ES）-此活动的EF 注意：紧后活动的最小值=前一项活动的最大EF。偏差分析，使用减法，强调的var（差），绩效分析（除法），强调的是 Performance Index （指标）

2023-10-15 17:09:29 490

原创开源视频处理软件OBS Studio下载和使用

为了免费使用麦克风降噪功能，可以使用可以使用OBS Studio软件。在清华大学开源软件镜像站提供的OBS Studio镜像源上下载或者上csdn 找我的内容源0积分下载。录VCR的时候提取打好纸张发言稿件，对着念事半功倍，不要一开始图省事不打讲稿，最后反而费时间。2、点击左下角的加号，点开噪声抑制。1、点击混音器的三个点，选择滤镜。3、桌面音频选默认，麦克风选耳机等。对部分区域录屏需要使用窗口采集。对全屏录屏需要使用显示器采集。在混音器中设置滤镜，过滤噪声。三、设置语音音频通道。

2023-09-25 09:25:46 1763

原创一个基与python和邮件的数据下载存储系统

一个基与邮件的数据下载存储系统，它包括两部分，分别是数据生成和传递以及定时执行一、数据生成和传递1、获取特定时间段的数据2、将获取数据保存到feather/csv3、邮件发送4、本地邮件下载，不用登录客户端。下载后改邮件状态为已读。5、上传网盘二、定时执行。主要通过schedule库完成。

2023-09-07 10:41:46 312

原创 pandas 读取excel和csv表格数据常见问题及解决

pandasrw库有效提升了pandas 读取excel和csv表格性能和易用性，大大方便了新手的使用，可以有效解决下列问题。pandasrw的名称是pandas read和write的缩写，目前支持excel、csv和pickle文件的读写。本库与pandas高度兼容读取的文件生成pandas的DataFrame，后续各种操作与pandas相同。通过pip进行安装在python中导入包。

2023-09-03 22:25:13 6103

原创 python 分类、分组、透视、频数加权平均等高频数据处理工具

为了快速应用将python 数据处理中的高频功能封装成函数，方便使用。

2023-06-12 21:59:05 306

原创多因素分析及Python工具

多因素分析时由于自变量较多导致分析过程复杂，分析过程复杂且容易逻辑混乱，现将主要思路总结如下# 主要思路一、独立性分析1、分析各自变量直接是否独立，如果独立则分析较为简单，如果不独立则较为困难。2、分析各自变量和因变量之间是否有关系，无关系则无需分析，减少要分析的自变量。3、主要方法为各类检验，如卡方检验、F检验、T检验等。以及相关性检验。二、转换为单变量分析将其他变量固定，每次单分析一个变量。三、分析主要变量对变量中的主要类别进行分析，次要类别先不分析，一般是分析样本量里占比高的类别

2023-06-12 09:39:30 1376

原创使用python 进行表格数据的纵表和横表的互转

用python进行表格数据的行列互转有一些现成的API，但是在细节上往往还待进一步优化，本文对常用的纵表和横表的互转进行了进一步的封装，提升了易用性。pandas主要使用pivot_table()函数，通过透视表实现纵表转横表，同时还有pivot有类似功能（该函数不能处理重复数据）。如果直接使用pivot_table()函数会导致每个值都作为一列。会导致列变得非常长。本文通过折叠列，让修改后得结果更容易阅读。

2023-05-16 17:22:02 3017

原创 Python 多进程+分组数据流式加载，实现数据的低内存多进程处理

Python使用多进程时，内存占用会成倍增加。为现数据处理时的低内存占用多进程加速。同时也可以绕开一些不可pickle的参数，实现多进程。方法：将两个表按共有字段group_col分组，分组后的每组数据作为中间表持久化为pkl文件。多进程读取pkl文件，然后进行计算。这样做的好处有2个：一是降低内存占用，数据较大时避免了内存溢出导致程序崩溃。二是避免了中间存在不可pickle对象导致无法使用多进程。

2023-04-16 10:52:41 958

原创基与pgmpy库实现的贝叶斯网络

pgmpy库项目地址常用代码解释结构学习，训练有向无环图。贝叶斯网络学习主要包括结构学习、参数学习和预测等步骤，本文介绍了各步骤的方法和提供了相关代码。

2023-04-13 09:25:32 2729 4

原创利用机器学习算法，高效分析地图数据中位置的距离关系

利用机器学习算法中sklean库中KNN、高效分析地图位置点的关系。其中KNN模块中主要使用ball-tree数据结构模型，提高运算效率完成各类距离关系分析。k-近邻算法的核心思想是未标记样本的类别，由距离其最近的k个邻居投票决定。一、计算经纬度间的距离1、计算任意两个点的距离2、计算numpy数组的距离。二、计算距离m内个所有的点。三、查找n个最近的点...

2023-03-30 16:10:04 912

原创一个pandas和excel、csv高效IO增强库—pandasrw

pandas的I/O相对各类包一直偏慢且存在易用性问题，特别是对于大文件的读写，瓶颈非常明显。pandasrw 库通过将各类库进一步封装，提高了pandas 读写excel、csv等文件的性能和易用性。

2023-03-29 15:46:38 823

原创 github使用和上传pypi包

3、git push --set-upstream origin master master就是主分支，无需加其他内容。git commit -m “提交修改的代码” 双引号内的内容就是后面 github上第二列显示内容。1/gitbash here 需要在要上传或者下载的文件夹下使用。4、上面操作完后，需要上github手动合并。

2023-03-28 10:44:12 1247 1

inkscape一个SVG转透明背景png的软件

inkscape一个SVG转透明背景png的软件，兼容性非常好。

2025-06-29

spacy 库的中文NLP分析模型zh-core-web-trf

Spacy的中文NLP分析模型zh_core_web_trf是一个强大的工具，专为中文文本处理而设计。该模型基于Transformer架构，融入了大规模的中文语料库训练，提供了丰富的语言分析能力，包括分词、词性标注、命名实体识别等。它不仅能够处理标准的中文文本，还能应对各种复杂的语言现象，如新词、网络用语等。zh_core_web_trf的出色性能使其在中文NLP任务中表现出色，为研究人员和开发者提供了高效、准确的中文语言处理解决方案。无论是进行文本挖掘、信息抽取还是自然语言理解，zh_core_web_trf都是一个值得依赖的强大工具。这个模型较大，直接下载较慢，通过本CSDN资源可以快速下载。

2024-02-15

流程图软件draw.io v22.0.0 版本2023年10月最新版本

Draw.io是一款免费的在线图形设计工具，它的优势主要体现在以下几个方面：在线工具体：Draw.io是一款基于Web的在线工具，用户无需安装任何客户端即可使用其功能。这使得它非常适合那些需要快速创建和编辑图形的人们，特别是那些没有太多技术背景的用户。易用性：Draw.io具有直观的界面和简单的操作方式，使得即使是没有设计经验的人也能够轻松使用。它提供了多种预设的模板，用户可以直接在这些模板上开始设计，省去了繁琐的准备工作。丰富的图形库：Draw.io提供了丰富的图形库，包括各种形状、线条、箭头、文本框等。这些图形库可以满足用户在各种场合下的设计需求。支持团队协作：Draw.io支持多人协作，允许多个用户同时编辑同一份图形。这对于需要多人合作的项目来说非常方便，可以大大提高工作效率。自定义功能强大：Draw.io不仅提供了丰富的预设功能，还允许用户根据自己的需求进行自定义。例如，用户可以自定义工具栏、快捷键、颜色主题等，以适合自己的使用习惯。导出格式灵活：Draw.io支持将图形导出为多种格式，如PNG、JPEG、SVG等。用户可以根据需要选择合适的格式

2023-10-02

视频处理+OBS Studio汉化+win10+amr

OBS Studio是一款开源的免费软件，用于视频录制和直播。它的主要功能包括屏幕录制、游戏录制、直播推流等，支持多种平台，如Windows、macOS、Linux、Android和iOS等。对于录音降噪等其他国产软件收费项目也是免费的。 OBS Studio的优点主要有以下几点：免费开源：OBS Studio是完全免费的开源软件，用户可以自由下载和使用，无需支付任何费用。简单易用：OBS Studio的用户界面简洁明了，操作起来非常方便。即使是初次使用的用户也能够快速上手。功能强大：OBS Studio提供了丰富的功能，可以满足用户的各种需求。例如，它可以同时录制屏幕和摄像头的视频；可以对录制的视频进行剪辑和调整；还可以添加文字、图像和动画等元素。OBS Studio提供了丰富的视频源选择和混合功能。用户可以将多个视频源，如摄像头、游戏画面、网页等，同时显示在同一个画面上。这使得用户可以自由定制自己的直播画面，以适应不同的直播需求。跨平台支持：OBS Studio支持多种操作系统和平台，用户可以在不同的设备上使用它来录制和直播视频。

2023-09-24

一个pandas和excel、csv高效IO增强库-pandasrw

这是正式的v0.05版本，已上传pypi。大大提升了pandas库的读写性能和易用性，通过他可以更快和更方便的生成pandas DataFrame以及写入excel或者csv。具体介绍参见 csdn 文章《一个pandas和excel、csv高效IO增强库—pandasrw》。

2023-09-03

V0.05半成品，稍后修改

2023-06-01

机器学习-基与pgmpy库实现的贝叶斯网络

使用python语言，基与pgmpy库实现的贝叶斯网络，可以实现贝叶斯网络的结构学习、参数学习、预测以及可视化。贝叶斯网络(Bayesian network)，又称信念网络(Belief Network)，或有向无环图模型(directed acyclic graphical model)，是一种概率图模型，于1985年由Judea Pearl首先提出。它是一种模拟人类推理过程中因果关系的不确定性处理模型，其网络拓朴结构是一个有向无环图(DAG)。贝叶斯能够考虑网络中的不确定性，在数据量少的情况下能够避免过拟合，是解决数据稀疏、数据样本带有噪音等问题的有效方法，与图论的结合又衍生出具有可解释性的贝叶斯网络，在医疗、生物、系统可靠性和金融等领域都有着广泛的应用。

2023-04-13

统计学-使用python自动分箱和计算累积占比

对数据分类，然后再进行处理是常用的功能。在pandas中可以通过数据的分箱和聚合来实现。本文通过pandas实现相关功能，并封装为函数。

2023-04-04

pandas和excel、csv高效读写的增强库-pandasrw

pandas的I/O相对各类包一直偏慢且存在易用性问题，特别是对于大文件的读写，瓶颈非常明显。pandasrw 库通过将各类库进一步封装，提高了pandas 读写excel、csv等文件的性能和易用性。这个库是本人发布在github的一个项目，欢迎大家交流，方便的时候的给个star。pandasrw的名称是pandas read和write的缩写，目前支持excel、csv和pickle文件的读写。 https://github.com/stormtozero/pandasrw 从性能提升、易用性提升和流式加载方面对pandas的表格数据读写进行了增强。其中在性能提升方面可以提升2-3倍的性能，在易用性方面封装了编码转换和文件类型自动识别。此外还实现了三个小功能，一个简单的流式加载和计算的功能、csv的编码转换功能和xlsx转换为csv的功能。

2023-04-03

python自适应网格搜索.py

网格搜索是一种对多个参数组合遍历进行寻优的方法。通过多重for循环可以进行网格。但是当参数的数量增加的时候需要增加for的层数，不利于程序的扩展。本文通过先对参数进行全排列，然后让生成的全排列转换成numpy数组再逐行遍历的方式进行网格搜索可以方便的自适应参数的数量进行网格搜索和使用numba加速。

2023-01-23

excel流式加载.py

excel格式数据不能像csv格式一样方便的实现分块的读取。对于csv可以通过dask库和或者pd.read_csv的chunksize参数实现流式加载和运算。为了避免对excel大文件读取或运算过程中的内存不足，通过流式加载excel再进行处理，节约内存使用。分块读取excel实现流式加载和计算，该方案会严重影响读写速度，如果分为n个块，则读取的时间为一次读取的n倍。仅适用于数据过大无法读入内存的情况。

2023-01-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人