自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 收藏
  • 关注

原创 写材料word和PPT

4、修改格式:仿宋 、正文统一为小三,标题三号,1.5倍行距,加页码。2、参考GPT改:内容、逻辑结构、语句。

2024-07-15 11:21:10 308

原创 streamlit 学习

4、通过subprocess 库,将上述的三步写成python文件。运行该文件后即可启动页面,并且该方式没有命令行的黑框。3、在程序运行期间,需要保障命令行不关闭否则会出现连接不上的问题。2、在cmd中运行python 文件,启动一个网页。命令 cd D:\code\streamlit。1、先切换目录到Python文件放置的目录下。修改py文件并保存后,刷新网页即可。

2024-05-20 09:49:25 221

原创 Python制作精美表格——plottable

在matplotlib中,linestyle参数接受一个元组(offset, (on, off)),其中on表示线段的长度,off表示间隙的长度,而offset是线段开始前的偏移量,一般默认为0。如果你希望得到较长的线段和较短的间隙交替的虚线效果,可以增大on相对于off的值。1、原始数据数量较少,可以一屏展示。这个库会将原始表格的所有数据都放到一个图片里,数据太多展示效果较差。plottable是一个基础matplotlib的绘制精美图形表格的库。奇偶行设置不同的颜色,让表格看起来有层次感。

2024-04-30 16:33:31 510

原创 典型神经网络模型—自编码器

在神经网络中,编码器(Encoder)是一种用于将输入数据转换为另一种形式的网络组件或模型部分。编码器的核心任务是将原始数据压缩或转换为一种更紧凑、更具代表性的形式,通常是为了便于存储、传输或进一步的分析处理。编码器的模型在编码器中最常见的是自编码器,可以起到数据压缩和降维的作用,相比于PCA他可以完成非线性的降维。

2024-04-10 12:50:31 1494

原创 自注意力机制的理解

自注意力机制实际上是注意力机制的一种,它也是一种网络的构型,它想要解决的问题是网络接收的输入是很多向量,并且向量的大小也是不确定的情况,比如机器翻译(序列到序列的问题,机器自己决定多少个标签),词性标注(Pos tagging 一个向量对应一个标签),语义分析(多个向量对应一个标签)等文字处理以及图像处理中。2.1、生成查询、键和值:对于每一个输入嵌入向量(例如,每一个词向量),通过线性变换(或称为权重矩阵乘法)生成对应的查询向量(Query, Q)、键向量(Key, K)和值向量(Value, V)。

2024-03-19 17:41:32 1287

原创 使用Spacy做中文词频和词性分析

在没有GPU的情况下,模型推理巨慢无比,可以考虑使用以下的多进程方式,其中nlp = spacy.load(‘zh_core_web_trf’)可能无法pickle,需要放入analyze_text(paragraph_text, nlp)函数内部。需要确保你的Spacy版本是最新的,因为zh_core_web_trf是一个基于transformer的模型,因为它包含了整个transformer模型。zh_core_web_trf模型,模型大,准确性高。1、为什么选择Spacy库。

2024-02-15 18:06:45 866 1

原创 设置打印机

一、打开控制面板的设备和打印机选项。四、使用IP地址或主机名添加打印机。二、点击其中的添加打印机选项。三、点我所需的打印机未列出。

2024-02-07 14:07:04 571

原创 视频业务像素、带宽、存储空间计算

1小时的秒数)×24(单位:小时;一天的时间长)×30(保存的天数)×50监控点要保存摄像机录像的总数)÷0.9(磁盘格式化的损失10%空间)=所需存储空间的大小(注:存储单位换算1TB=1024GB;1MB=1024KB)1路存储1天的720P(100万像素)视频格式录像信息的存储空间所需大小为:256×3600×24×1×1÷0.9÷1024÷1024=23.44GB。1路存储1天的1080P(200万像素)视频格式录像信息的存储空间所需大小为:512×3600×24×1×1÷0.9=46.88GB。

2024-02-04 17:07:21 3169

原创 繁体字转换为简体字

读取txt,将繁体字转换为简体字。

2024-02-02 10:00:40 754

原创 flask框架制作前端网页作为GUI

您将看到一个包含三个按钮的页面,每个按钮都链接到一个表单,用于上传本地文件。读取文件到app文件夹下并将文件名写入对应的txt文件(现代浏览器不允许获取本地路径),后续通过读入txt的文件名来拼接路径,读取app文件夹下的文件。templates/:模板文件目录,用于存放应用的HTML模板文件。创建一个名为templates的目录,并在其中创建一个名为index.html的文件。README.md:应用的说明文档,包含了应用的运行方法、配置说明等。app.py:应用的入口文件,包含了应用的初始化和配置。

2024-01-27 21:55:01 1041

原创 pandas增强—数据表的非等式连接和条件连接

主要是对空值、列的增删的处理,和各个行业(如金融)等封装的清洗方法。2、使用pandas的功能增强库pyjanitor 库的 conditional_join 函数,既节省内存又不损性能;2、对于时间序列可以使用asof来连接。缺点是功能受限,不是所有的条件筛选都能用asof,特别是非时间序列的情况下。该方案的有优点是代码和pandas高度兼容,如果只做简单的不等连接可以使用,复杂的条件还需要DuckDB。对于使用到的pyjanitor 库,它是一个从R迁移来的python库,主要有以下3方面的功能。

2024-01-13 22:02:03 636

原创 PDF操作,PDF提取文字并统计词频—快速预览PDF报告,

1、 PyMuPD网上有许多资料,但是多数比较老,这个模块的API已有变动,本文做了更新。本模块安装需要pip install PyMuPDF,但是导入是fitz。该库不支持python3.10以上版本。,注意这两个库暂时不支持python3.10以上的版本,主要是paddleocr依赖的PyMuPDF不支持python3.10以上版本。有许多PDF是图片格式,并不能直接提取文字。本文采取PDF转图片,并通过OCR识别文字生成文本,进而统计文本的词频的方式进行快速预览。读取结果、使用结巴分词,并统计词频。

2024-01-12 19:37:27 1082

原创 配色方案的参考

二、调色板界的palettable也可以参考、可以用在seaborn上。这篇文章的第三和第四部分——单配色。这篇文章的配色方案—组合配色。

2024-01-07 00:33:22 470

原创 文章链接-用于快速查询

1、使用python电脑轻量级控制手机—adb命令和手机投屏。1、draw.io基础操作和代码高效画图进阶。

2024-01-06 19:16:46 509

原创 draw.io基础操作、代码高效画图和批量操作图形

实现方法1:鼠标放在图形边缘等待出现蓝色箭头,鼠标左键点击图形上的箭头。如果拖动其中一个图形的话,固定链接的形状会自动变为直线连接。如果拖动其中一个图形的话,固定链接的形状会是曲线连过去。鼠标放在图形上,点击出现的箭头,会自动出常用图形。点击第二张图中红圈的黄点,改变成图标的形状。上面左边出现绿圆点+鼠标左键点击图形的。2、shift+小蓝点 等比例拖动。不放+拖动链接另外一个图形的。ctrl+拖动鼠标 快速复制。ctrl+c/v 复制+粘贴。+拖动链接到另外一个图形+1.1、自动连接图形。

2023-12-29 22:55:27 8701

原创 python 文本纠错库pycorrector的使用(API变更,许多介绍文章已不可用)

pycorrector是一个nice的中文检测库,在最新的版本API变更,导致许多之前的介绍文章不可用。现将新API粘贴如下。

2023-11-14 12:47:24 1247 1

原创 使用python电脑轻量级控制手机—adb命令和手机投屏

输入adb pair 手机IP:端口后会自动弹出输入配对码的命令行,输入下图红色的配对码即可。通过电脑控制手机有多种方式如appnium等,本文介绍的是两种轻量级的方案,使用adb命令刚和手机投屏。在手机上打开开发者选项,启用显示指针位置或显示触摸位置选项。2.1、adb pair 手机IP:端口,下图蓝色部分的ip和端口。3、使用pyautogui等屏幕点击库控制投屏区域,进而控制手机。控制多个手机 adb -s id 命令。控制一个手机 adb 命令。通过adb 命令控制手机。1、adb 连接手机。

2023-11-12 21:40:00 4033

原创 使用Python批量操作PPT—修改字体、提取文字到word、插入图片、合并多个PPT

只能修改英文和数字,并且run.font.name识别的也是英文和数字的名称。因为这个包,没有针对汉字的API,而且这个包很久没更新了,开发者提供了解决思路是修改office文件的底层xml来实现,修改xml中的a:ea的typeface属性,网上已经有人用 pptx_ea_font 这个包实现了该功能。将一份PPT的每一页字体、大小、是否加粗都统一,是一个常见需求。在python操控PPT常用库python-pptx中有一个bug,对字体的修改只能修改数字和英文字母,无法修改汉字。

2023-10-29 16:45:28 1805 4

原创 十天通过软考之计算题

2、将波浪线上的活动(注意有时是活动组(入下图的BD B是D的紧前,B和D都可以移动,但是D肯定在B后面))自由移动,求准确的最小人数。β分布,一次实验的结果只有0和1两个选项(伯努利实验),已经观察到a 次0 和b 次1 ,估算出来的分布。自由时差:代表最大可支配时间 为 min(紧后活动的ES)-此活动的EF 注意:紧后活动的最小值=前一项活动的最大EF。偏差分析,使用减法,强调的var(差), 绩效分析(除法),强调的是 Performance Index (指标)

2023-10-15 17:09:29 126

原创 开源视频处理软件OBS Studio下载和使用

为了免费使用麦克风降噪功能,可以使用可以使用OBS Studio软件。在清华大学开源软件镜像站提供的OBS Studio镜像源上下载或者上csdn 找我的内容源0积分下载。录VCR的时候提取打好纸张发言稿件,对着念事半功倍,不要一开始图省事不打讲稿,最后反而费时间。2、点击左下角的加号,点开噪声抑制。1、点击混音器的三个点,选择滤镜。3、桌面音频选默认,麦克风选耳机等。对部分区域录屏需要使用窗口采集。对全屏录屏需要使用显示器采集。在混音器中设置滤镜,过滤噪声。三、设置语音音频通道。

2023-09-25 09:25:46 491

原创 一个基与python和邮件的数据下载存储系统

一个基与邮件的数据下载存储系统,它包括两部分,分别是数据生成和传递以及定时执行一、数据生成和传递1、获取特定时间段的数据2、将获取数据保存到feather/csv3、邮件发送4、本地邮件下载,不用登录客户端。下载后改邮件状态为已读。5、上传网盘二、定时执行。主要通过schedule库完成。

2023-09-07 10:41:46 156

原创 pandas 读取excel和csv表格数据常见问题及解决

pandasrw库有效提升了pandas 读取excel和csv表格性能和易用性,大大方便了新手的使用,可以有效解决下列问题。pandasrw的名称是pandas read和write的缩写,目前支持excel、csv和pickle文件的读写。本库与pandas高度兼容读取的文件生成pandas的DataFrame,后续各种操作与pandas相同。通过pip进行安装在python中导入包。

2023-09-03 22:25:13 4356

原创 python 分类、分组、透视、频数加权平均等高频数据处理工具

为了快速应用将python 数据处理中的高频功能封装成函数,方便使用。

2023-06-12 21:59:05 124

原创 多因素分析及Python工具

多因素分析时由于自变量较多导致分析过程复杂,分析过程复杂且容易逻辑混乱,现将主要思路总结如下# 主要思路一、独立性分析1、分析各自变量直接是否独立,如果独立则分析较为简单,如果不独立则较为困难。2、分析各自变量和因变量之间是否有关系,无关系则无需分析,减少要分析的自变量。3、主要方法为各类检验,如卡方检验、F检验、T检验等。以及相关性检验。二、转换为单变量分析将其他变量固定,每次单分析一个变量。三、分析主要变量对变量中的主要类别进行分析,次要类别先不分析,一般是分析样本量里占比高的类别

2023-06-12 09:39:30 944

原创 使用python 进行表格数据的纵表和横表的互转

用python进行表格数据的行列互转有一些现成的API,但是在细节上往往还待进一步优化,本文对常用的纵表和横表的互转进行了进一步的封装,提升了易用性。pandas主要使用pivot_table()函数,通过透视表实现纵表转横表,同时还有pivot有类似功能(该函数不能处理重复数据)。如果直接使用pivot_table()函数会导致每个值都作为一列。会导致列变得非常长。本文通过折叠列,让修改后得结果更容易阅读。

2023-05-16 17:22:02 2126

原创 Python 多进程+分组数据流式加载,实现数据的低内存多进程处理

Python使用多进程时,内存占用会成倍增加。为现数据处理时的低内存占用多进程加速。同时也可以绕开一些不可pickle的参数,实现多进程。方法:将两个表按共有字段group_col分组,分组后的每组数据作为中间表持久化为pkl文件。多进程读取pkl文件,然后进行计算。这样做的好处有2个:一是降低内存占用,数据较大时避免了内存溢出导致程序崩溃。二是避免了中间存在不可pickle对象导致无法使用多进程。

2023-04-16 10:52:41 520

原创 基与pgmpy库实现的贝叶斯网络

pgmpy库项目地址常用代码解释结构学习 ,训练有向无环图。贝叶斯网络学习主要包括结构学习、参数学习和预测等步骤,本文介绍了各步骤的方法和提供了相关代码。

2023-04-13 09:25:32 1855 3

原创 利用机器学习算法,高效分析地图数据中位置的距离关系

利用机器学习算法中sklean库中KNN、高效分析地图位置点的关系。其中KNN模块中主要使用ball-tree数据结构模型,提高运算效率完成各类距离关系分析。k-近邻算法的核心思想是未标记样本的类别,由距离其最近的k个邻居投票决定。一、计算经纬度间的距离1、计算任意两个点的距离2、计算numpy数组的距离。二、计算距离m内个所有的点。三、查找n个最近的点...

2023-03-30 16:10:04 597

原创 一个pandas和excel、csv高效IO增强库—pandasrw

pandas的I/O相对各类包一直偏慢且存在易用性问题,特别是对于大文件的读写,瓶颈非常明显。pandasrw 库通过将各类库进一步封装,提高了pandas 读写excel、csv等文件的性能和易用性。

2023-03-29 15:46:38 486

原创 github使用和上传pypi包

3、git push --set-upstream origin master master就是主分支,无需加其他内容。git commit -m “提交修改的代码” 双引号内的内容就是后面 github上第二列显示内容。1/gitbash here 需要在要上传或者下载的文件夹下使用。4、上面操作完后,需要上github手动合并。

2023-03-28 10:44:12 812 1

原创 python最大互信息系数的计算

最大互信息系数可以计算非线性相关性,他的缺点是对于大数据集计算非常缓慢, 因为会产生大量的循环,其中使用MINE(alpha=0.6, c=15),alpha=0.6是经验上的最佳参数,若样本为N则在Y轴上会产生N的0.6次方个网格进行计算,必要时可以缩小该该系数进行计算。本文通过minepy库进行了计算,通过joblib库多进程进行加速。可以考虑使用numpy手动实现算法,并通过numba加速,提升计算速度。

2023-03-27 08:52:34 1424

原创 熵、熵权法与python计算

注意1:在计算时主要需要注意正向指标和负向指标的区分,对于负向指标可以在归一化时改变改变公式计算为正向,也可以数据预处理时提前对指标正向化,如可以把失败率正向化为1-失败率。注意3:scipy的entropy函数输入的是一个概率序列,但是函数自带归一化功能,输入非否序列会自动计算每个值的概率,因此输入计数序列即可无需计算每个值出现的概率再输入。注意2:熵权法的熵的计算公式和信息熵的计算公式不同,计算概率时不是每个值出现的次数除以总次数,而是直接用值除以值的求和。在信息论中,熵的公式为。

2023-03-19 19:35:41 966

原创 创建pandas容器和添加数据

创建pandas容器主要包括两部分内容,分别时创建空的DataFrame和对DataFrame添加内容。

2023-02-27 18:25:20 3661

原创 pandas数据的分箱和聚合

对数据分类,然后再进行处理是常用的功能。在pandas中可以通过数据的分箱和聚合来实现。本文通过pandas实现相关功能,并封装为函数。整个过程分为四步。

2023-02-23 09:28:40 1129

原创 pandas自适应编码和后缀加载和保存表

pandas加载和保存表需要指定后缀和编码方式,通用性不强。通过对pandas API的进一步包装可以增加通用性,推介使用pandasrw库来进行数据的读写。

2023-02-15 11:26:05 246

原创 Python 自适应参数数量的网格搜索

网格搜索是一种对多个参数组合遍历进行寻优的方法。但是当参数的数量增加的时候需要增加for的层数,不利于程序的扩展。通过先对参数进行全排列,然后让生成的全排列转换成numpy数组再逐行遍历的方式进行网格搜索可以方便的自适应参数的数量进行网格搜索和使用numba加速。

2023-01-23 21:51:31 460

原创 excel和csv表格文件流式处理降低内存需求以及并行化读取——分块读写和计算

excel格式数据不能像csv格式一样方便的实现分块的读取。对于csv可以通过dask库和或者pd.read_csv的chunksize参数实现流式加载和运算。为了避免对excel大文件读取或运算过程中的内存不足,通过流式加载excel再进行处理,节约内存使用。流式加载和计算主要有两种思路1、将excel转化为csv实现流式加载和计算。2、分块读取excel实现流式加载和计算。

2023-01-23 20:56:36 1358

原创 对于pandas数据进行均分分块和合并

pandas并未内置分块函数,对于pandas的分块有2种方法,一种是通过numpy中的split分块和本文介绍的自动计算分块行数进行分块的方法。在合并的时候主要也是解决无列名或列名不一致时的合并。

2023-01-23 16:40:07 925

原创 3GPP无线通信信道路损及基于python的计算

3GPP路损模型主要在38.901中的Table 7.4.1-1:Pathloss models部分。其中表头部分写明了各参数的单位以及默认值等,下图是计算的示意图,下表是部分表。模型分为城区微站(UMi)、城区宏站(UMa)、农村大尺度(RMa)三个场景,每个场景包括LOS(视距)NLOS(视距)两类;通过分界点距离划分,在分界点两侧是两个公式。

2022-12-23 23:07:55 2003

原创 基与距离和字符串相似的地址匹配

基与距离和字符串相似进行地址匹配,主要分为三部分。数据:业务源数据:df_s 包含业务地址、经纬度待查找数据:df_find包含待查找地点地址、经纬度1、计算业务源地址的经纬度与待查找地址经纬度的距离,进行初筛。2、对df_s字符串和df_find字符串进行处理,为字符串相似做准备。2.1.通过cpca库进行地址分词,去除省市信息仅保留最少地址信息。2.2.通过正则去除字符串的特殊字符,仅保留字母、数字、汉字。3、通过字符串相似算法,计算df_s和df_find的相似性。

2022-12-04 18:59:57 415

spacy 库的中文NLP分析模型zh-core-web-trf

Spacy的中文NLP分析模型zh_core_web_trf是一个强大的工具,专为中文文本处理而设计。该模型基于Transformer架构,融入了大规模的中文语料库训练,提供了丰富的语言分析能力,包括分词、词性标注、命名实体识别等。它不仅能够处理标准的中文文本,还能应对各种复杂的语言现象,如新词、网络用语等。zh_core_web_trf的出色性能使其在中文NLP任务中表现出色,为研究人员和开发者提供了高效、准确的中文语言处理解决方案。无论是进行文本挖掘、信息抽取还是自然语言理解,zh_core_web_trf都是一个值得依赖的强大工具。 这个模型较大,直接下载较慢,通过本CSDN资源可以快速下载。

2024-02-15

流程图软件draw.io v22.0.0 版本2023年10月最新版本

Draw.io是一款免费的在线图形设计工具,它的优势主要体现在以下几个方面: 在线工具体:Draw.io是一款基于Web的在线工具,用户无需安装任何客户端即可使用其功能。这使得它非常适合那些需要快速创建和编辑图形的人们,特别是那些没有太多技术背景的用户。 易用性:Draw.io具有直观的界面和简单的操作方式,使得即使是没有设计经验的人也能够轻松使用。它提供了多种预设的模板,用户可以直接在这些模板上开始设计,省去了繁琐的准备工作。 丰富的图形库:Draw.io提供了丰富的图形库,包括各种形状、线条、箭头、文本框等。这些图形库可以满足用户在各种场合下的设计需求。 支持团队协作:Draw.io支持多人协作,允许多个用户同时编辑同一份图形。这对于需要多人合作的项目来说非常方便,可以大大提高工作效率。 自定义功能强大:Draw.io不仅提供了丰富的预设功能,还允许用户根据自己的需求进行自定义。例如,用户可以自定义工具栏、快捷键、颜色主题等,以适合自己的使用习惯。 导出格式灵活:Draw.io支持将图形导出为多种格式,如PNG、JPEG、SVG等。用户可以根据需要选择合适的格式

2023-10-02

视频处理+OBS Studio汉化+win10+amr

OBS Studio是一款开源的免费软件,用于视频录制和直播。它的主要功能包括屏幕录制、游戏录制、直播推流等,支持多种平台,如Windows、macOS、Linux、Android和iOS等。对于录音降噪等其他国产软件收费项目也是免费的。 OBS Studio的优点主要有以下几点: 免费开源:OBS Studio是完全免费的开源软件,用户可以自由下载和使用,无需支付任何费用。 简单易用:OBS Studio的用户界面简洁明了,操作起来非常方便。即使是初次使用的用户也能够快速上手。 功能强大:OBS Studio提供了丰富的功能,可以满足用户的各种需求。例如,它可以同时录制屏幕和摄像头的视频;可以对录制的视频进行剪辑和调整;还可以添加文字、图像和动画等元素。OBS Studio提供了丰富的视频源选择和混合功能。用户可以将多个视频源,如摄像头、游戏画面、网页等,同时显示在同一个画面上。这使得用户可以自由定制自己的直播画面,以适应不同的直播需求。 跨平台支持:OBS Studio支持多种操作系统和平台,用户可以在不同的设备上使用它来录制和直播视频。

2023-09-24

一个pandas和excel、csv高效IO增强库-pandasrw

这是正式的v0.05版本,已上传pypi。大大提升了pandas库的读写性能和易用性,通过他可以更快和更方便的生成pandas DataFrame以及写入excel或者csv。具体介绍参见 csdn 文章 《一个pandas和excel、csv高效IO增强库—pandasrw》。

2023-09-03

V0.05半成品,稍后修改

V0.05半成品,稍后修改

2023-06-01

机器学习-基与pgmpy库实现的贝叶斯网络

使用python语言,基与pgmpy库实现的贝叶斯网络,可以实现贝叶斯网络的结构学习、参数学习、预测以及可视化。 贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型,于1985年由Judea Pearl首先提出。它是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓朴结构是一个有向无环图(DAG)。 贝叶斯能够考虑网络中的不确定性,在数据量少的情况下能够避免过拟合,是解决数据稀疏、数据样本带有噪音等问题的有效方法,与图论的结合又衍生出具有可解释性的贝叶斯网络,在医疗、生物、系统可靠性和金融等领域都有着广泛的应用。

2023-04-13

统计学-使用python自动分箱和计算累积占比

对数据分类,然后再进行处理是常用的功能。在pandas中可以通过数据的分箱和聚合来实现。本文通过pandas实现相关功能,并封装为函数。

2023-04-04

pandas和excel、csv高效读写的增强库-pandasrw

pandas的I/O相对各类包一直偏慢且存在易用性问题,特别是对于大文件的读写,瓶颈非常明显。pandasrw 库通过将各类库进一步封装,提高了pandas 读写excel、csv等文件的性能和易用性。 这个库是本人发布在github的一个项目,欢迎大家交流,方便的时候的给个star。pandasrw的名称是pandas read和write的缩写,目前支持excel、csv和pickle文件的读写。 https://github.com/stormtozero/pandasrw 从性能提升、易用性提升和流式加载方面对pandas的表格数据读写进行了增强。其中在性能提升方面可以提升2-3倍的性能,在易用性方面封装了编码转换和文件类型自动识别。此外还实现了三个小功能,一个简单的流式加载和计算的功能、csv的编码转换功能和xlsx转换为csv的功能。

2023-04-03

python自适应网格搜索.py

网格搜索是一种对多个参数组合遍历进行寻优的方法。通过多重for循环可以进行网格。但是当参数的数量增加的时候需要增加for的层数,不利于程序的扩展。本文通过先对参数进行全排列,然后让生成的全排列转换成numpy数组再逐行遍历的方式进行网格搜索可以方便的自适应参数的数量进行网格搜索和使用numba加速。

2023-01-23

excel流式加载.py

excel格式数据不能像csv格式一样方便的实现分块的读取。对于csv可以通过dask库和或者pd.read_csv的chunksize参数实现流式加载和运算。为了避免对excel大文件读取或运算过程中的内存不足,通过流式加载excel再进行处理,节约内存使用。分块读取excel实现流式加载和计算,该方案会严重影响读写速度,如果分为n个块,则读取的时间为一次读取的n倍。仅适用于数据过大无法读入内存的情况。

2023-01-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除