- 博客(49)
- 收藏
- 关注
原创 房贷还贷策略计算
这两种还款方式都是基于贷款总额、年利率以及还款期限(月数)来计算每月应还金额。在等额本息还款方式下,每个月偿还固定的金额,这个金额包含了当月应付的本金和利息。随着贷款时间的增长,所包含的本金比例逐渐增加,而利息比例逐渐减少。使用等额本金,每月结余的钱为payment_first减去当月总还款,当结余钱达到n后,一次性还款n元,然后重新投入还款,计算最终的还款金额和利息。在等额本金还款方式下,每个月偿还相同的本金数额,但利息部分随着剩余本金的减少而逐渐降低。m = 300 # 贷款期数(月)
2024-10-31 09:55:13 1013 1
原创 streamlit 学习
4、通过subprocess 库,将上述的三步写成python文件。运行该文件后即可启动页面,并且该方式没有命令行的黑框。3、在程序运行期间,需要保障命令行不关闭否则会出现连接不上的问题。2、在cmd中运行python 文件,启动一个网页。命令 cd D:\code\streamlit。1、先切换目录到Python文件放置的目录下。修改py文件并保存后,刷新网页即可。
2024-05-20 09:49:25 266
原创 Python制作精美表格——plottable
在matplotlib中,linestyle参数接受一个元组(offset, (on, off)),其中on表示线段的长度,off表示间隙的长度,而offset是线段开始前的偏移量,一般默认为0。如果你希望得到较长的线段和较短的间隙交替的虚线效果,可以增大on相对于off的值。1、原始数据数量较少,可以一屏展示。这个库会将原始表格的所有数据都放到一个图片里,数据太多展示效果较差。plottable是一个基础matplotlib的绘制精美图形表格的库。奇偶行设置不同的颜色,让表格看起来有层次感。
2024-04-30 16:33:31 647
原创 典型神经网络模型—自编码器
在神经网络中,编码器(Encoder)是一种用于将输入数据转换为另一种形式的网络组件或模型部分。编码器的核心任务是将原始数据压缩或转换为一种更紧凑、更具代表性的形式,通常是为了便于存储、传输或进一步的分析处理。编码器的模型在编码器中最常见的是自编码器,可以起到数据压缩和降维的作用,相比于PCA他可以完成非线性的降维。
2024-04-10 12:50:31 1873
原创 自注意力机制的理解
自注意力机制实际上是注意力机制的一种,它也是一种网络的构型,它想要解决的问题是网络接收的输入是很多向量,并且向量的大小也是不确定的情况,比如机器翻译(序列到序列的问题,机器自己决定多少个标签),词性标注(Pos tagging 一个向量对应一个标签),语义分析(多个向量对应一个标签)等文字处理以及图像处理中。2.1、生成查询、键和值:对于每一个输入嵌入向量(例如,每一个词向量),通过线性变换(或称为权重矩阵乘法)生成对应的查询向量(Query, Q)、键向量(Key, K)和值向量(Value, V)。
2024-03-19 17:41:32 1336
原创 使用Spacy做中文词频和词性分析
在没有GPU的情况下,模型推理巨慢无比,可以考虑使用以下的多进程方式,其中nlp = spacy.load(‘zh_core_web_trf’)可能无法pickle,需要放入analyze_text(paragraph_text, nlp)函数内部。需要确保你的Spacy版本是最新的,因为zh_core_web_trf是一个基于transformer的模型,因为它包含了整个transformer模型。zh_core_web_trf模型,模型大,准确性高。1、为什么选择Spacy库。
2024-02-15 18:06:45 1021 1
原创 视频业务像素、带宽、存储空间计算
1小时的秒数)×24(单位:小时;一天的时间长)×30(保存的天数)×50监控点要保存摄像机录像的总数)÷0.9(磁盘格式化的损失10%空间)=所需存储空间的大小(注:存储单位换算1TB=1024GB;1MB=1024KB)1路存储1天的720P(100万像素)视频格式录像信息的存储空间所需大小为:256×3600×24×1×1÷0.9÷1024÷1024=23.44GB。1路存储1天的1080P(200万像素)视频格式录像信息的存储空间所需大小为:512×3600×24×1×1÷0.9=46.88GB。
2024-02-04 17:07:21 4610
原创 flask框架制作前端网页作为GUI
您将看到一个包含三个按钮的页面,每个按钮都链接到一个表单,用于上传本地文件。读取文件到app文件夹下并将文件名写入对应的txt文件(现代浏览器不允许获取本地路径),后续通过读入txt的文件名来拼接路径,读取app文件夹下的文件。templates/:模板文件目录,用于存放应用的HTML模板文件。创建一个名为templates的目录,并在其中创建一个名为index.html的文件。README.md:应用的说明文档,包含了应用的运行方法、配置说明等。app.py:应用的入口文件,包含了应用的初始化和配置。
2024-01-27 21:55:01 1144
原创 pandas增强—数据表的非等式连接和条件连接
主要是对空值、列的增删的处理,和各个行业(如金融)等封装的清洗方法。2、使用pandas的功能增强库pyjanitor 库的 conditional_join 函数,既节省内存又不损性能;2、对于时间序列可以使用asof来连接。缺点是功能受限,不是所有的条件筛选都能用asof,特别是非时间序列的情况下。该方案的有优点是代码和pandas高度兼容,如果只做简单的不等连接可以使用,复杂的条件还需要DuckDB。对于使用到的pyjanitor 库,它是一个从R迁移来的python库,主要有以下3方面的功能。
2024-01-13 22:02:03 712
原创 PDF操作,PDF提取文字并统计词频—快速预览PDF报告,
1、 PyMuPD网上有许多资料,但是多数比较老,这个模块的API已有变动,本文做了更新。本模块安装需要pip install PyMuPDF,但是导入是fitz。该库不支持python3.10以上版本。,注意这两个库暂时不支持python3.10以上的版本,主要是paddleocr依赖的PyMuPDF不支持python3.10以上版本。有许多PDF是图片格式,并不能直接提取文字。本文采取PDF转图片,并通过OCR识别文字生成文本,进而统计文本的词频的方式进行快速预览。读取结果、使用结巴分词,并统计词频。
2024-01-12 19:37:27 1211
原创 配色方案的参考
二、调色板界的palettable也可以参考、可以用在seaborn上。这篇文章的第三和第四部分——单配色。这篇文章的配色方案—组合配色。
2024-01-07 00:33:22 543
原创 draw.io基础操作、代码高效画图和批量操作图形
实现方法1:鼠标放在图形边缘等待出现蓝色箭头,鼠标左键点击图形上的箭头。如果拖动其中一个图形的话,固定链接的形状会自动变为直线连接。如果拖动其中一个图形的话,固定链接的形状会是曲线连过去。鼠标放在图形上,点击出现的箭头,会自动出常用图形。点击第二张图中红圈的黄点,改变成图标的形状。上面左边出现绿圆点+鼠标左键点击图形的。2、shift+小蓝点 等比例拖动。不放+拖动链接另外一个图形的。ctrl+拖动鼠标 快速复制。ctrl+c/v 复制+粘贴。+拖动链接到另外一个图形+1.1、自动连接图形。
2023-12-29 22:55:27 12199
原创 python 文本纠错库pycorrector的使用(API变更,许多介绍文章已不可用)
pycorrector是一个nice的中文检测库,在最新的版本API变更,导致许多之前的介绍文章不可用。现将新API粘贴如下。
2023-11-14 12:47:24 1452 1
原创 使用python电脑轻量级控制手机—adb命令和手机投屏
输入adb pair 手机IP:端口后会自动弹出输入配对码的命令行,输入下图红色的配对码即可。通过电脑控制手机有多种方式如appnium等,本文介绍的是两种轻量级的方案,使用adb命令刚和手机投屏。在手机上打开开发者选项,启用显示指针位置或显示触摸位置选项。2.1、adb pair 手机IP:端口,下图蓝色部分的ip和端口。3、使用pyautogui等屏幕点击库控制投屏区域,进而控制手机。控制多个手机 adb -s id 命令。控制一个手机 adb 命令。通过adb 命令控制手机。1、adb 连接手机。
2023-11-12 21:40:00 4476
原创 使用Python批量操作PPT—修改字体、提取文字到word、插入图片、合并多个PPT
只能修改英文和数字,并且run.font.name识别的也是英文和数字的名称。因为这个包,没有针对汉字的API,而且这个包很久没更新了,开发者提供了解决思路是修改office文件的底层xml来实现,修改xml中的a:ea的typeface属性,网上已经有人用 pptx_ea_font 这个包实现了该功能。将一份PPT的每一页字体、大小、是否加粗都统一,是一个常见需求。在python操控PPT常用库python-pptx中有一个bug,对字体的修改只能修改数字和英文字母,无法修改汉字。
2023-10-29 16:45:28 1960 4
原创 十天通过软考之计算题
2、将波浪线上的活动(注意有时是活动组(入下图的BD B是D的紧前,B和D都可以移动,但是D肯定在B后面))自由移动,求准确的最小人数。β分布,一次实验的结果只有0和1两个选项(伯努利实验),已经观察到a 次0 和b 次1 ,估算出来的分布。自由时差:代表最大可支配时间 为 min(紧后活动的ES)-此活动的EF 注意:紧后活动的最小值=前一项活动的最大EF。偏差分析,使用减法,强调的var(差), 绩效分析(除法),强调的是 Performance Index (指标)
2023-10-15 17:09:29 209
原创 开源视频处理软件OBS Studio下载和使用
为了免费使用麦克风降噪功能,可以使用可以使用OBS Studio软件。在清华大学开源软件镜像站提供的OBS Studio镜像源上下载或者上csdn 找我的内容源0积分下载。录VCR的时候提取打好纸张发言稿件,对着念事半功倍,不要一开始图省事不打讲稿,最后反而费时间。2、点击左下角的加号,点开噪声抑制。1、点击混音器的三个点,选择滤镜。3、桌面音频选默认,麦克风选耳机等。对部分区域录屏需要使用窗口采集。对全屏录屏需要使用显示器采集。在混音器中设置滤镜,过滤噪声。三、设置语音音频通道。
2023-09-25 09:25:46 613
原创 一个基与python和邮件的数据下载存储系统
一个基与邮件的数据下载存储系统,它包括两部分,分别是数据生成和传递以及定时执行一、数据生成和传递1、获取特定时间段的数据2、将获取数据保存到feather/csv3、邮件发送4、本地邮件下载,不用登录客户端。下载后改邮件状态为已读。5、上传网盘二、定时执行。主要通过schedule库完成。
2023-09-07 10:41:46 175
原创 pandas 读取excel和csv表格数据常见问题及解决
pandasrw库有效提升了pandas 读取excel和csv表格性能和易用性,大大方便了新手的使用,可以有效解决下列问题。pandasrw的名称是pandas read和write的缩写,目前支持excel、csv和pickle文件的读写。本库与pandas高度兼容读取的文件生成pandas的DataFrame,后续各种操作与pandas相同。通过pip进行安装在python中导入包。
2023-09-03 22:25:13 4642
原创 多因素分析及Python工具
多因素分析时由于自变量较多导致分析过程复杂,分析过程复杂且容易逻辑混乱,现将主要思路总结如下# 主要思路一、独立性分析1、分析各自变量直接是否独立,如果独立则分析较为简单,如果不独立则较为困难。2、分析各自变量和因变量之间是否有关系,无关系则无需分析,减少要分析的自变量。3、主要方法为各类检验,如卡方检验、F检验、T检验等。以及相关性检验。二、转换为单变量分析将其他变量固定,每次单分析一个变量。三、分析主要变量对变量中的主要类别进行分析,次要类别先不分析,一般是分析样本量里占比高的类别
2023-06-12 09:39:30 1042
原创 使用python 进行表格数据的纵表和横表的互转
用python进行表格数据的行列互转有一些现成的API,但是在细节上往往还待进一步优化,本文对常用的纵表和横表的互转进行了进一步的封装,提升了易用性。pandas主要使用pivot_table()函数,通过透视表实现纵表转横表,同时还有pivot有类似功能(该函数不能处理重复数据)。如果直接使用pivot_table()函数会导致每个值都作为一列。会导致列变得非常长。本文通过折叠列,让修改后得结果更容易阅读。
2023-05-16 17:22:02 2370
原创 Python 多进程+分组数据流式加载,实现数据的低内存多进程处理
Python使用多进程时,内存占用会成倍增加。为现数据处理时的低内存占用多进程加速。同时也可以绕开一些不可pickle的参数,实现多进程。方法:将两个表按共有字段group_col分组,分组后的每组数据作为中间表持久化为pkl文件。多进程读取pkl文件,然后进行计算。这样做的好处有2个:一是降低内存占用,数据较大时避免了内存溢出导致程序崩溃。二是避免了中间存在不可pickle对象导致无法使用多进程。
2023-04-16 10:52:41 587
原创 基与pgmpy库实现的贝叶斯网络
pgmpy库项目地址常用代码解释结构学习 ,训练有向无环图。贝叶斯网络学习主要包括结构学习、参数学习和预测等步骤,本文介绍了各步骤的方法和提供了相关代码。
2023-04-13 09:25:32 2027 3
原创 利用机器学习算法,高效分析地图数据中位置的距离关系
利用机器学习算法中sklean库中KNN、高效分析地图位置点的关系。其中KNN模块中主要使用ball-tree数据结构模型,提高运算效率完成各类距离关系分析。k-近邻算法的核心思想是未标记样本的类别,由距离其最近的k个邻居投票决定。一、计算经纬度间的距离1、计算任意两个点的距离2、计算numpy数组的距离。二、计算距离m内个所有的点。三、查找n个最近的点...
2023-03-30 16:10:04 626
原创 一个pandas和excel、csv高效IO增强库—pandasrw
pandas的I/O相对各类包一直偏慢且存在易用性问题,特别是对于大文件的读写,瓶颈非常明显。pandasrw 库通过将各类库进一步封装,提高了pandas 读写excel、csv等文件的性能和易用性。
2023-03-29 15:46:38 541
原创 github使用和上传pypi包
3、git push --set-upstream origin master master就是主分支,无需加其他内容。git commit -m “提交修改的代码” 双引号内的内容就是后面 github上第二列显示内容。1/gitbash here 需要在要上传或者下载的文件夹下使用。4、上面操作完后,需要上github手动合并。
2023-03-28 10:44:12 879 1
原创 python最大互信息系数的计算
最大互信息系数可以计算非线性相关性,他的缺点是对于大数据集计算非常缓慢, 因为会产生大量的循环,其中使用MINE(alpha=0.6, c=15),alpha=0.6是经验上的最佳参数,若样本为N则在Y轴上会产生N的0.6次方个网格进行计算,必要时可以缩小该该系数进行计算。本文通过minepy库进行了计算,通过joblib库多进程进行加速。可以考虑使用numpy手动实现算法,并通过numba加速,提升计算速度。
2023-03-27 08:52:34 1497
原创 熵、熵权法与python计算
注意1:在计算时主要需要注意正向指标和负向指标的区分,对于负向指标可以在归一化时改变改变公式计算为正向,也可以数据预处理时提前对指标正向化,如可以把失败率正向化为1-失败率。注意3:scipy的entropy函数输入的是一个概率序列,但是函数自带归一化功能,输入非否序列会自动计算每个值的概率,因此输入计数序列即可无需计算每个值出现的概率再输入。注意2:熵权法的熵的计算公式和信息熵的计算公式不同,计算概率时不是每个值出现的次数除以总次数,而是直接用值除以值的求和。在信息论中,熵的公式为。
2023-03-19 19:35:41 1020
原创 pandas数据的分箱和聚合
对数据分类,然后再进行处理是常用的功能。在pandas中可以通过数据的分箱和聚合来实现。本文通过pandas实现相关功能,并封装为函数。整个过程分为四步。
2023-02-23 09:28:40 1182
原创 pandas自适应编码和后缀加载和保存表
pandas加载和保存表需要指定后缀和编码方式,通用性不强。通过对pandas API的进一步包装可以增加通用性,推介使用pandasrw库来进行数据的读写。
2023-02-15 11:26:05 268
原创 Python 自适应参数数量的网格搜索
网格搜索是一种对多个参数组合遍历进行寻优的方法。但是当参数的数量增加的时候需要增加for的层数,不利于程序的扩展。通过先对参数进行全排列,然后让生成的全排列转换成numpy数组再逐行遍历的方式进行网格搜索可以方便的自适应参数的数量进行网格搜索和使用numba加速。
2023-01-23 21:51:31 502
原创 excel和csv表格文件流式处理降低内存需求以及并行化读取——分块读写和计算
excel格式数据不能像csv格式一样方便的实现分块的读取。对于csv可以通过dask库和或者pd.read_csv的chunksize参数实现流式加载和运算。为了避免对excel大文件读取或运算过程中的内存不足,通过流式加载excel再进行处理,节约内存使用。流式加载和计算主要有两种思路1、将excel转化为csv实现流式加载和计算。2、分块读取excel实现流式加载和计算。
2023-01-23 20:56:36 1437
原创 对于pandas数据进行均分分块和合并
pandas并未内置分块函数,对于pandas的分块有2种方法,一种是通过numpy中的split分块和本文介绍的自动计算分块行数进行分块的方法。在合并的时候主要也是解决无列名或列名不一致时的合并。
2023-01-23 16:40:07 985
原创 3GPP无线通信信道路损及基于python的计算
3GPP路损模型主要在38.901中的Table 7.4.1-1:Pathloss models部分。其中表头部分写明了各参数的单位以及默认值等,下图是计算的示意图,下表是部分表。模型分为城区微站(UMi)、城区宏站(UMa)、农村大尺度(RMa)三个场景,每个场景包括LOS(视距)NLOS(视距)两类;通过分界点距离划分,在分界点两侧是两个公式。
2022-12-23 23:07:55 2160
spacy 库的中文NLP分析模型zh-core-web-trf
2024-02-15
流程图软件draw.io v22.0.0 版本2023年10月最新版本
2023-10-02
视频处理+OBS Studio汉化+win10+amr
2023-09-24
一个pandas和excel、csv高效IO增强库-pandasrw
2023-09-03
机器学习-基与pgmpy库实现的贝叶斯网络
2023-04-13
统计学-使用python自动分箱和计算累积占比
2023-04-04
pandas和excel、csv高效读写的增强库-pandasrw
2023-04-03
python自适应网格搜索.py
2023-01-23
excel流式加载.py
2023-01-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人