- 博客(52)
- 收藏
- 关注
原创 强化学习基础
强化学习的主要对象为智能体(agent)、环境(environment)、动作(actions)、状态(states)和奖励(rewards)。智能体通过与环境交互,每步的交互会生成新的状态和得到环境给的奖励,通过一定的算法得到一个奖励最大的策略。设计强化学习的要素包括四个,通过状态、动作的不断交互和奖励的计算,以长期奖励最大化或者达到约束条件为终止条件,最终得到最优策略。奖励(Reward):一个数值反馈,用于量化智能体采取某一动作后环境的反应。动作(Action):智能体在特定状态下可以采取的操作。
2025-02-19 17:48:38
28
原创 大模型的量化和显存计算
Quantization (量化技术)在机器学习和深度学习领域是一种用于降低计算复杂度、减少内存占用、加速推理的优化方法。特别是目前模型越来越大的情况下,如deepseek的671模型,GTP5中预计到1T的模型。量化的核心目标是将模型中的浮点数权重和激活值转换为低精度数值表示,同时保持模型的准确性和性能尽可能不受影响。更具体一点来说,量化通过使用更小的数据类型(如 INT8、FP16 等)表示模型中的权重和激活值,而不是标准的 32 位浮点数。浮点数用于表示小数或非常大的数字。
2025-02-18 12:46:09
699
原创 将markdown文件和LaTex公式转为word
1. 项目介绍pypandoc 是一个用于 pandoc 的轻量级 Python 包装器。pandoc 是一个通用的文档转换工具,支持多种格式的文档转换,如 Markdown、HTML、LaTeX、DocBook 等。pypandoc 通过提供一个简单的 Python 接口,使得在 Python 脚本中调用 pandoc 变得更加方便。2. 安装自动下载 Pandoc并安装注意:pypandoc 提供了两个包:pypandoc:需要用户自行安装 pandoc软件才能使用。
2025-01-31 10:47:04
867
原创 图像超分,提高图像分辨率的方法和工具
图像超分是一种图像处理技术,旨在提高图像的分辨率,使其具有更高的清晰度和细节。这一技术通常用于图像重建、图像恢复、图像增强等领域,可以帮助我们更好地理解和利用图像信息。图像超分技术可以通过多种方法实现,包括插值算法、深度学习等。其中,深度学习的方法在近年来得到了广泛的关注和应用。基于深度学习的图像超分技术,可以利用深度神经网络学习图像的高频部分,从而提高了图像的分辨率和清晰度。
2025-01-13 12:39:07
652
原创 streamlit 学习
4、通过subprocess 库,将上述的三步写成python文件。运行该文件后即可启动页面,并且该方式没有命令行的黑框。3、在程序运行期间,需要保障命令行不关闭否则会出现连接不上的问题。2、在cmd中运行python 文件,启动一个网页。命令 cd D:\code\streamlit。1、先切换目录到Python文件放置的目录下。修改py文件并保存后,刷新网页即可。
2024-05-20 09:49:25
335
原创 Python制作精美表格——plottable
在matplotlib中,linestyle参数接受一个元组(offset, (on, off)),其中on表示线段的长度,off表示间隙的长度,而offset是线段开始前的偏移量,一般默认为0。如果你希望得到较长的线段和较短的间隙交替的虚线效果,可以增大on相对于off的值。1、原始数据数量较少,可以一屏展示。这个库会将原始表格的所有数据都放到一个图片里,数据太多展示效果较差。plottable是一个基础matplotlib的绘制精美图形表格的库。奇偶行设置不同的颜色,让表格看起来有层次感。
2024-04-30 16:33:31
745
原创 典型神经网络模型—自编码器
在神经网络中,编码器(Encoder)是一种用于将输入数据转换为另一种形式的网络组件或模型部分。编码器的核心任务是将原始数据压缩或转换为一种更紧凑、更具代表性的形式,通常是为了便于存储、传输或进一步的分析处理。编码器的模型在编码器中最常见的是自编码器,可以起到数据压缩和降维的作用,相比于PCA他可以完成非线性的降维。
2024-04-10 12:50:31
2167
原创 自注意力机制的理解
自注意力机制实际上是注意力机制的一种,它也是一种网络的构型,它想要解决的问题是网络接收的输入是很多向量,并且向量的大小也是不确定的情况,比如机器翻译(序列到序列的问题,机器自己决定多少个标签),词性标注(Pos tagging 一个向量对应一个标签),语义分析(多个向量对应一个标签)等文字处理以及图像处理中。2.1、生成查询、键和值:对于每一个输入嵌入向量(例如,每一个词向量),通过线性变换(或称为权重矩阵乘法)生成对应的查询向量(Query, Q)、键向量(Key, K)和值向量(Value, V)。
2024-03-19 17:41:32
1458
原创 使用Spacy做中文词频和词性分析
在没有GPU的情况下,模型推理巨慢无比,可以考虑使用以下的多进程方式,其中nlp = spacy.load(‘zh_core_web_trf’)可能无法pickle,需要放入analyze_text(paragraph_text, nlp)函数内部。需要确保你的Spacy版本是最新的,因为zh_core_web_trf是一个基于transformer的模型,因为它包含了整个transformer模型。zh_core_web_trf模型,模型大,准确性高。1、为什么选择Spacy库。
2024-02-15 18:06:45
1126
2
原创 视频业务像素、带宽、存储空间计算
1小时的秒数)×24(单位:小时;一天的时间长)×30(保存的天数)×50监控点要保存摄像机录像的总数)÷0.9(磁盘格式化的损失10%空间)=所需存储空间的大小(注:存储单位换算1TB=1024GB;1MB=1024KB)1路存储1天的720P(100万像素)视频格式录像信息的存储空间所需大小为:256×3600×24×1×1÷0.9÷1024÷1024=23.44GB。1路存储1天的1080P(200万像素)视频格式录像信息的存储空间所需大小为:512×3600×24×1×1÷0.9=46.88GB。
2024-02-04 17:07:21
6272
原创 flask框架制作前端网页作为GUI
您将看到一个包含三个按钮的页面,每个按钮都链接到一个表单,用于上传本地文件。读取文件到app文件夹下并将文件名写入对应的txt文件(现代浏览器不允许获取本地路径),后续通过读入txt的文件名来拼接路径,读取app文件夹下的文件。templates/:模板文件目录,用于存放应用的HTML模板文件。创建一个名为templates的目录,并在其中创建一个名为index.html的文件。README.md:应用的说明文档,包含了应用的运行方法、配置说明等。app.py:应用的入口文件,包含了应用的初始化和配置。
2024-01-27 21:55:01
1253
原创 pandas增强—数据表的非等式连接和条件连接
主要是对空值、列的增删的处理,和各个行业(如金融)等封装的清洗方法。2、使用pandas的功能增强库pyjanitor 库的 conditional_join 函数,既节省内存又不损性能;2、对于时间序列可以使用asof来连接。缺点是功能受限,不是所有的条件筛选都能用asof,特别是非时间序列的情况下。该方案的有优点是代码和pandas高度兼容,如果只做简单的不等连接可以使用,复杂的条件还需要DuckDB。对于使用到的pyjanitor 库,它是一个从R迁移来的python库,主要有以下3方面的功能。
2024-01-13 22:02:03
802
原创 PDF操作,PDF提取文字并统计词频—快速预览PDF报告,
1、 PyMuPD网上有许多资料,但是多数比较老,这个模块的API已有变动,本文做了更新。本模块安装需要pip install PyMuPDF,但是导入是fitz。该库不支持python3.10以上版本。,注意这两个库暂时不支持python3.10以上的版本,主要是paddleocr依赖的PyMuPDF不支持python3.10以上版本。有许多PDF是图片格式,并不能直接提取文字。本文采取PDF转图片,并通过OCR识别文字生成文本,进而统计文本的词频的方式进行快速预览。读取结果、使用结巴分词,并统计词频。
2024-01-12 19:37:27
1343
原创 配色方案的参考
二、调色板界的palettable也可以参考、可以用在seaborn上。这篇文章的第三和第四部分——单配色。这篇文章的配色方案—组合配色。
2024-01-07 00:33:22
653
原创 draw.io基础操作、代码高效画图和批量操作图形
实现方法1:鼠标放在图形边缘等待出现蓝色箭头,鼠标左键点击图形上的箭头。如果拖动其中一个图形的话,固定链接的形状会自动变为直线连接。如果拖动其中一个图形的话,固定链接的形状会是曲线连过去。鼠标放在图形上,点击出现的箭头,会自动出常用图形。点击第二张图中红圈的黄点,改变成图标的形状。上面左边出现绿圆点+鼠标左键点击图形的。2、shift+小蓝点 等比例拖动。不放+拖动链接另外一个图形的。ctrl+拖动鼠标 快速复制。ctrl+c/v 复制+粘贴。+拖动链接到另外一个图形+1.1、自动连接图形。
2023-12-29 22:55:27
17529
原创 python 文本纠错库pycorrector的使用(API变更,许多介绍文章已不可用)
pycorrector是一个nice的中文检测库,在最新的版本API变更,导致许多之前的介绍文章不可用。现将新API粘贴如下。
2023-11-14 12:47:24
1648
2
原创 使用python电脑轻量级控制手机—adb命令和手机投屏
输入adb pair 手机IP:端口后会自动弹出输入配对码的命令行,输入下图红色的配对码即可。通过电脑控制手机有多种方式如appnium等,本文介绍的是两种轻量级的方案,使用adb命令刚和手机投屏。在手机上打开开发者选项,启用显示指针位置或显示触摸位置选项。2.1、adb pair 手机IP:端口,下图蓝色部分的ip和端口。3、使用pyautogui等屏幕点击库控制投屏区域,进而控制手机。控制多个手机 adb -s id 命令。控制一个手机 adb 命令。通过adb 命令控制手机。1、adb 连接手机。
2023-11-12 21:40:00
4797
原创 使用Python批量操作PPT—修改字体、提取文字到word、插入图片、合并多个PPT
只能修改英文和数字,并且run.font.name识别的也是英文和数字的名称。因为这个包,没有针对汉字的API,而且这个包很久没更新了,开发者提供了解决思路是修改office文件的底层xml来实现,修改xml中的a:ea的typeface属性,网上已经有人用 pptx_ea_font 这个包实现了该功能。将一份PPT的每一页字体、大小、是否加粗都统一,是一个常见需求。在python操控PPT常用库python-pptx中有一个bug,对字体的修改只能修改数字和英文字母,无法修改汉字。
2023-10-29 16:45:28
2123
4
原创 十天通过软考之计算题
2、将波浪线上的活动(注意有时是活动组(入下图的BD B是D的紧前,B和D都可以移动,但是D肯定在B后面))自由移动,求准确的最小人数。β分布,一次实验的结果只有0和1两个选项(伯努利实验),已经观察到a 次0 和b 次1 ,估算出来的分布。自由时差:代表最大可支配时间 为 min(紧后活动的ES)-此活动的EF 注意:紧后活动的最小值=前一项活动的最大EF。偏差分析,使用减法,强调的var(差), 绩效分析(除法),强调的是 Performance Index (指标)
2023-10-15 17:09:29
263
原创 开源视频处理软件OBS Studio下载和使用
为了免费使用麦克风降噪功能,可以使用可以使用OBS Studio软件。在清华大学开源软件镜像站提供的OBS Studio镜像源上下载或者上csdn 找我的内容源0积分下载。录VCR的时候提取打好纸张发言稿件,对着念事半功倍,不要一开始图省事不打讲稿,最后反而费时间。2、点击左下角的加号,点开噪声抑制。1、点击混音器的三个点,选择滤镜。3、桌面音频选默认,麦克风选耳机等。对部分区域录屏需要使用窗口采集。对全屏录屏需要使用显示器采集。在混音器中设置滤镜,过滤噪声。三、设置语音音频通道。
2023-09-25 09:25:46
803
原创 一个基与python和邮件的数据下载存储系统
一个基与邮件的数据下载存储系统,它包括两部分,分别是数据生成和传递以及定时执行一、数据生成和传递1、获取特定时间段的数据2、将获取数据保存到feather/csv3、邮件发送4、本地邮件下载,不用登录客户端。下载后改邮件状态为已读。5、上传网盘二、定时执行。主要通过schedule库完成。
2023-09-07 10:41:46
196
原创 pandas 读取excel和csv表格数据常见问题及解决
pandasrw库有效提升了pandas 读取excel和csv表格性能和易用性,大大方便了新手的使用,可以有效解决下列问题。pandasrw的名称是pandas read和write的缩写,目前支持excel、csv和pickle文件的读写。本库与pandas高度兼容读取的文件生成pandas的DataFrame,后续各种操作与pandas相同。通过pip进行安装在python中导入包。
2023-09-03 22:25:13
4955
原创 多因素分析及Python工具
多因素分析时由于自变量较多导致分析过程复杂,分析过程复杂且容易逻辑混乱,现将主要思路总结如下# 主要思路一、独立性分析1、分析各自变量直接是否独立,如果独立则分析较为简单,如果不独立则较为困难。2、分析各自变量和因变量之间是否有关系,无关系则无需分析,减少要分析的自变量。3、主要方法为各类检验,如卡方检验、F检验、T检验等。以及相关性检验。二、转换为单变量分析将其他变量固定,每次单分析一个变量。三、分析主要变量对变量中的主要类别进行分析,次要类别先不分析,一般是分析样本量里占比高的类别
2023-06-12 09:39:30
1124
原创 使用python 进行表格数据的纵表和横表的互转
用python进行表格数据的行列互转有一些现成的API,但是在细节上往往还待进一步优化,本文对常用的纵表和横表的互转进行了进一步的封装,提升了易用性。pandas主要使用pivot_table()函数,通过透视表实现纵表转横表,同时还有pivot有类似功能(该函数不能处理重复数据)。如果直接使用pivot_table()函数会导致每个值都作为一列。会导致列变得非常长。本文通过折叠列,让修改后得结果更容易阅读。
2023-05-16 17:22:02
2578
原创 Python 多进程+分组数据流式加载,实现数据的低内存多进程处理
Python使用多进程时,内存占用会成倍增加。为现数据处理时的低内存占用多进程加速。同时也可以绕开一些不可pickle的参数,实现多进程。方法:将两个表按共有字段group_col分组,分组后的每组数据作为中间表持久化为pkl文件。多进程读取pkl文件,然后进行计算。这样做的好处有2个:一是降低内存占用,数据较大时避免了内存溢出导致程序崩溃。二是避免了中间存在不可pickle对象导致无法使用多进程。
2023-04-16 10:52:41
645
原创 基与pgmpy库实现的贝叶斯网络
pgmpy库项目地址常用代码解释结构学习 ,训练有向无环图。贝叶斯网络学习主要包括结构学习、参数学习和预测等步骤,本文介绍了各步骤的方法和提供了相关代码。
2023-04-13 09:25:32
2199
3
原创 利用机器学习算法,高效分析地图数据中位置的距离关系
利用机器学习算法中sklean库中KNN、高效分析地图位置点的关系。其中KNN模块中主要使用ball-tree数据结构模型,提高运算效率完成各类距离关系分析。k-近邻算法的核心思想是未标记样本的类别,由距离其最近的k个邻居投票决定。一、计算经纬度间的距离1、计算任意两个点的距离2、计算numpy数组的距离。二、计算距离m内个所有的点。三、查找n个最近的点...
2023-03-30 16:10:04
646
原创 一个pandas和excel、csv高效IO增强库—pandasrw
pandas的I/O相对各类包一直偏慢且存在易用性问题,特别是对于大文件的读写,瓶颈非常明显。pandasrw 库通过将各类库进一步封装,提高了pandas 读写excel、csv等文件的性能和易用性。
2023-03-29 15:46:38
576
原创 github使用和上传pypi包
3、git push --set-upstream origin master master就是主分支,无需加其他内容。git commit -m “提交修改的代码” 双引号内的内容就是后面 github上第二列显示内容。1/gitbash here 需要在要上传或者下载的文件夹下使用。4、上面操作完后,需要上github手动合并。
2023-03-28 10:44:12
939
1
原创 python最大互信息系数的计算
最大互信息系数可以计算非线性相关性,他的缺点是对于大数据集计算非常缓慢, 因为会产生大量的循环,其中使用MINE(alpha=0.6, c=15),alpha=0.6是经验上的最佳参数,若样本为N则在Y轴上会产生N的0.6次方个网格进行计算,必要时可以缩小该该系数进行计算。本文通过minepy库进行了计算,通过joblib库多进程进行加速。可以考虑使用numpy手动实现算法,并通过numba加速,提升计算速度。
2023-03-27 08:52:34
1558
原创 熵、熵权法与python计算
注意1:在计算时主要需要注意正向指标和负向指标的区分,对于负向指标可以在归一化时改变改变公式计算为正向,也可以数据预处理时提前对指标正向化,如可以把失败率正向化为1-失败率。注意3:scipy的entropy函数输入的是一个概率序列,但是函数自带归一化功能,输入非否序列会自动计算每个值的概率,因此输入计数序列即可无需计算每个值出现的概率再输入。注意2:熵权法的熵的计算公式和信息熵的计算公式不同,计算概率时不是每个值出现的次数除以总次数,而是直接用值除以值的求和。在信息论中,熵的公式为。
2023-03-19 19:35:41
1056
原创 pandas数据的分箱和聚合
对数据分类,然后再进行处理是常用的功能。在pandas中可以通过数据的分箱和聚合来实现。本文通过pandas实现相关功能,并封装为函数。整个过程分为四步。
2023-02-23 09:28:40
1234
原创 pandas自适应编码和后缀加载和保存表
pandas加载和保存表需要指定后缀和编码方式,通用性不强。通过对pandas API的进一步包装可以增加通用性,推介使用pandasrw库来进行数据的读写。
2023-02-15 11:26:05
284
原创 Python 自适应参数数量的网格搜索
网格搜索是一种对多个参数组合遍历进行寻优的方法。但是当参数的数量增加的时候需要增加for的层数,不利于程序的扩展。通过先对参数进行全排列,然后让生成的全排列转换成numpy数组再逐行遍历的方式进行网格搜索可以方便的自适应参数的数量进行网格搜索和使用numba加速。
2023-01-23 21:51:31
530
spacy 库的中文NLP分析模型zh-core-web-trf
2024-02-15
流程图软件draw.io v22.0.0 版本2023年10月最新版本
2023-10-02
视频处理+OBS Studio汉化+win10+amr
2023-09-24
一个pandas和excel、csv高效IO增强库-pandasrw
2023-09-03
机器学习-基与pgmpy库实现的贝叶斯网络
2023-04-13
统计学-使用python自动分箱和计算累积占比
2023-04-04
pandas和excel、csv高效读写的增强库-pandasrw
2023-04-03
python自适应网格搜索.py
2023-01-23
excel流式加载.py
2023-01-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人