PYTHON
文章平均质量分 55
Life is a joke
这个作者很懒,什么都没留下…
展开
-
用硬币抛掷模型进行置信度区间T-校验的EXCEL TINV和PYTHON的综合模拟
我了解了如上的置信度区间计算方法,其中Xn为样本采样数量的平均值(即mean),A为EXCEL TINV求出的偏离中心值,Sn为方差,n为采样样本总数。我决定用硬币抛掷模型进行EXCEL TINV和PYTHON的综合模拟。首先我在EXCEL上对自由度为10和56765439的情况进行了计算结果分别为:P1=2.22813884% P2=1.959963942% P3=1.962339%利用python进行分别用P1=2.22813884% P2=1.959963942% P3=1.96.原创 2022-03-07 10:54:36 · 574 阅读 · 0 评论 -
基于TensorFlow深度学习框架,运用python搭建LeNet-5卷积神经网络模型和mnist手写数字识别数据集,设计一个手写数字识别软件。
本软件是基于TensorFlow深度学习框架,运用LeNet-5卷积神经网络模型和mnist手写数字识别数据集所设计的手写数字识别软件。具体实现如下:1.读入数据:运用TensorFlow深度学习框架,下载并读入mnist手写数字识别数据集。2.构建模型:用神经元构建神经网络,定义神经网络的权重和偏置项来进行前向计算,并使用Softmax Regression模型来进行Softmax分类,即可得到每一类图像特征所对应数字的概率。3.训练模型:设置训练参数(训练轮次、训练样本量、训练批次、显示力度、学原创 2022-03-01 15:22:07 · 3387 阅读 · 0 评论 -
基于机器学习中集成学习的stacking方式进行的金线莲质量鉴别研究(python进行数据处理并完成建模,对品种进行预测)
1.前言金线莲为兰科开唇兰属植物,别名金丝兰、金丝线、金耳环、乌人参、金钱草等,是一种名贵中药材,国内主要产地为较低纬度地区如:福建、台湾、广东、广西、浙江、江西、海南、云南、四川、贵州以及西藏南部[1],被当地人民誉为“药中之王”,福建品种和台湾品种更是其中的上等品种,在治疗肺部炎症、糖尿病、癌症、肾炎、膀胱炎、重症肌无力、风湿性及类风湿性关节炎、高血脂、毒蛇咬伤有着很大的作用[2-3]。由于野生金线莲的自然繁殖率低、生长条件受限制等原因导致数量有限,市面上出售的金线莲大多为人工培育品种。不同品系金线莲原创 2022-03-01 15:13:57 · 449 阅读 · 0 评论 -
生活中的泊松分布(为什么你等的公交车总不来)Python模拟的结果图直观展示
深圳湾公交车总站,每6分钟发出一辆开往天水围站的公交车.由于随机因素的干扰,汽车到达天水围站时,两车之间的间隔时间成为独立同分布,服从指数分布的随机变量.设乘客甲等可能地到达车站候车,计算(1)他在深圳湾站候车时的平均候车时间;(2)他在天水围站候车时的平均候车时间.解(1)用T表示甲到达深圳湾站的时间.对于任何长度为6分钟的发车间隔(0,6],已知T∈(0,6]时,T在(0,6]中均匀分布.所以平均候车时间是3分钟.(2)根据题意,公交车按照强度为λ的泊松过程{N(t)}到达天水围站.由于这路公交原创 2022-02-28 11:09:58 · 2627 阅读 · 0 评论 -
利用泊松过程和泊松分布对香港股票交易所服务器容量大小的估计和分析,python模拟仿真判断它能够抵御多强的DDOS攻击,评估它的安全系数。
在互联网中的电机访问事件通常可以被看作互相独立的泊松过程。而利用泊松过程的特性,结合香港证券交易所发布的数据,我们便可以对其服务器的设计容量进行分析,并因此判断它能够抵御多强的DDOS攻击,评估它的安全系数。首先查得2022年1月份的平均日交易量为2131405次,交易时间为每天6.5小时。因此将一秒钟作为泊松过程的时间间隔,进行访问次数的强度参数估计为:lambda=2131405/6.5/60/60=910.85利用Python进行该泊松过程的画图分析:from scipy import st原创 2022-02-22 15:47:49 · 312 阅读 · 0 评论 -
对香港天气预报的马尔科夫链性质分析及python模拟
查阅香港天文台的数据后发现,香港的雨量预报包括9天的预报情况,下雨的机率大致分为3个等级:高=0.7/中=0.5/低=0.3。因此,我把 3 状态建立为如下图所示的马尔可夫链进行模拟。然后我在 python 中对这个马尔可夫链进行了 100 次模拟。我发现不管start_matrix是什么,也就是初始状态的矩阵,得到的矩阵都会收敛到一个固定的矩阵。这完全符合马尔可夫链的无记忆特性。所以我认为天气预报确实是由一个马尔可夫链系统组成的。import matplotlib.pyplot as plti原创 2022-02-22 15:37:07 · 976 阅读 · 0 评论 -
深度学习中提高训练速度的办法,降低显存的技巧(适合没有太多计算资源的入门trick)
1、提高batchsize直到GPU RAM达到满负荷:显卡利用率不足经常有程序跑得非常慢,但是一看占用率才3%,10%,这往往是因为CPU和GPU之间的速度不是很匹配。因为模型的计算基本都是在GPU上的,所以一般问题都出在载入数据的速度太慢了,当载入数据花了很久但模型计算飞快的解决,相对于GPU要等待很久才会工作,这样的占用率自然就不高了。当然也有可能不是数据的问题,而是模型本身就太简单了。batch_size变大。这样可以一次性多载入数据到显存中,可以提高它的占用率,并且可以尽量占满GPU的内存。原创 2022-02-13 16:52:29 · 5965 阅读 · 0 评论 -
炼丹心得(深度学习的模型训练)对于一些情况及时进行训练参数调整的必要性(学习率LR的调整是首要)归纳一些涨点方法
前言在训练网络的时候,常常会出现loss出现非常明显的剧烈抖动情况,虽然大多数情况可以继续训练下去,但是实际上还是预示着问题存在。而且,有不同维度的问题,这也需要不同的解决方法,但是具体究竟是哪一种,还得具体情况具体分析。无过拟合是否找到合适的loss函数:在深度学习里面,不同的loss针对的任务是有不同的,有些loss函数比较通用例如L1/L2等,而如perceptual loss则比较适合在图像恢复/生成领域的任务上。当loss出现问题的适合,想一想,是不是loss设置的有问题,别人在此领域的任务原创 2022-02-06 15:45:48 · 3711 阅读 · 1 评论 -
大数据时代的采样定理:马尔可夫链蒙特卡洛(MCMC)与其python实现
大数据时代的特点是数据除了数量多、维度也将变多。那么传统的采样定理如果要构造合适的概率分布函数耗时且耗费大量算力。因此引入马尔科夫链的遍历性(Ergodicity)、常返性(recurrency)特点以及蒙特卡洛方法的大量实验逼近真实概率分布的原理实现多维的数据采样。从而构造概率分布函数。假设我们要采样的是一个二维正态分布 N(U,SIGMA),其中: U=(5,-1), 方差sigma=(1,11,4 );而采样过程中的需要的状态转移条件分布为:from mpl_toolkits.mplot原创 2022-02-06 15:14:13 · 3229 阅读 · 0 评论 -
基于概率论的随机过程,用泊松分布对香港猖獗的电话诈骗进行模拟,python实现并且经过实验验证
考虑到香港猖獗的电话诈骗。我将研究电话诈骗是否满足某个概率分布。于是查了维基百科和香港警队的资料:数据显示,2021年电话诈骗案将有1193宗,平均每天有3.27宗诈骗案。香港748.2万人口约750万。基于手机通常是个人拥有的手机,假设每个案例只有一个人接听并被骗,则每天被骗人数为 3.27 除以 7,500,000 等于 0.000000436。1 除以 0.000000436 约为 2,300,000。因此,每天大约有 2,300,000 个电话是电话诈骗电话。11.png假设诈骗者的电话是泊松流,泊原创 2022-02-03 14:51:10 · 1192 阅读 · 0 评论 -
用PYTHON规整图片文件夹后图片转为视频,解决图片传视频时候播放顺序不对的问题(opencv2实现)并且实现将视频按照任意帧率转化为图片
python版本3.8原创 2022-01-30 13:12:34 · 3884 阅读 · 1 评论 -
目标检测中的评价指标知识点总结:IOU交叉重叠单元、map/AP/TP/FP/NP的归纳
在目标检测任务中,我们时常会让模型一次性生成大量的候选框(candidate bound),然后再根据每一个框的置信度对框进行排序,进而依次计算框与框之间的IoU,以非极大值抑制的方式,来判断到底哪一个是我们真正要找的物体,哪几个又该删除。例如在做人脸检测时,模型输出的可能是左图,而最终我们得到的是右图。代码实现import numpy as np# box:[上, 左, 下, 右]box1 = [0,0,8,6]box2 = [2,3,10,9]def IoU(box1, box2):原创 2022-01-29 15:49:08 · 3185 阅读 · 0 评论 -
对泊松分布和泊松过程已经爱尔朗分布的理解和他们的联系(排队论和运筹学中的重要理论)
泊松分布大家已经很熟悉了,其实它作为2项分布的大数情况在某些情况下是存在偏差的,并不是说泊松分布不正确,而是在离散点采样时我们并不是等概率采集到每个时间点的样本。因此泊松过程产生了:利用前一次采样时间段和这一次时间段的差值作为平均等待时间能够很好地消除BIAS。而多个泊松过程就构成了airlang过程。如下的经典例子:现在让我们随机选择的狂热者去黄石国家公园旅游,那里最受欢迎的景点是老忠实喷泉,它以经常喷发而闻名,大约每90分钟就会发生一次。因此,当我们的朋友们到达时,他们会等待45分钟才会爆发。就在他原创 2022-01-28 10:19:51 · 1452 阅读 · 0 评论 -
百度paddle和aistudio系列分析(人工智能产业生态发展前景全聚焦)国产人工智能产业的升级,并且与Google对比下未来的展望
###最近在研究深度学习,发现神经网络涉及的领域几乎涵盖了所有能用的到计算机的场景。而百度的部署更是多点发力,导致所有的领域几乎都在开发百度的应用化场景,相比于google和微软,百度的研究性相对弱了一些,但是工业应用做的还是不错的,特别是对英语不太好,又上不了Github的DP爱好者来说,真是福音。下面就介绍百度的应用开发场景都有哪些。1、神经网络以及模型的搭建工具最左边这一类涵盖了数据集构造、数据清洗、模型训练(PGL图神经网络、FLfederal learning联合学习、PALM: PAll原创 2022-01-25 20:56:38 · 743 阅读 · 0 评论 -
排队论和随机过程(性能优化CPU、服务器调度,软硬件开发者都需要知道的理论)
或许你对概率统计和排队论有点发怵,但这些内容是必须学会的,因为它们很重要。因为它们是性能测试和优化这座高楼大厦的地基。地基打不好,性能测试和优化也不会做得很好。性能优化有关排队论的有随机过程stochastic process、markov ergodicity马尔科夫遍历性、OPTIMAL IDEL优化闲置三大基础定律法则。而且我想强调的是:你完全没有必要惧怕,因为你只需要学习一部分最基础的知识,这些知识对多数人和多数场合大体就够了。还记得上一讲的帕累托法则吗?根据帕累托法则,这一讲的内容或许占不到平时原创 2022-01-15 13:02:57 · 1094 阅读 · 0 评论 -
使用HPC的一点心得(基于windows的putty)
#修改PIP的下载位置:打开bash文件修改sudo gedit ~/.bashrc#在最后一行添加如下命令:alias pip=/home/horsetif/anaconda3/bin/pipalias pip3=/home/horsetif/anaconda3/bin/pip#更新bash文件source ~/.bashrc配置环境变量vim ~/.bashrci #插入export PATH=/home/yupeng/anaconda3/bin:$PATH:wq #保存退出so原创 2022-01-14 20:46:40 · 340 阅读 · 0 评论 -
linux系统指令(基于putty的高性能计算机HPC使用)
首先用putty登陆 :你的EID@burgundy.hpc.cityu.edu.hk.上传本地文件到服务器(新开一个cmd窗口,在本地cmd操作)传输单个文件scp,传输文件夹scp -r (-r: 递归复制整个目录). 上传下载通用scp 本地绝对路径 jichawang2@burgundy.hpc.cityu.edu.hk:/home/jichawang2scp -r 本地文件夹路径 你的EID@burgundy.hpc.cityu.edu.hk.:wanttoputloglinux命令原创 2022-01-14 18:54:30 · 1023 阅读 · 0 评论 -
python安装cython_bbox for paddle detection gui的debug
1.下载cython_bbox包,安装visual studio build tools 进行编译2.激活anaconda环境,并切换到 *\cocoapi-master\PythonAPI 目录3.进入steup.py 中,把extra_compile_args=[’-Wno-cpp’, ‘-Wno-unused-function’, ‘-std=c99’],修改成extra_compile_args={‘gcc’: [’/Qstd=c99’]},4.打开bulid tool的命令行界面,进入到cy原创 2022-01-12 14:54:44 · 732 阅读 · 0 评论 -
tensorflow的配置:anaconda的默认python内置版本是3.8已经能够被TensorFlow支持。
网上总是有人说tensorflow只能支持3.6和3.7的python,而anaconda的默认python内置版本是3.8,因此需要配置虚拟环境。这句话一年前是对的,但是现在是错的。因为tensorflow已经更新到了3.8python版本了。...原创 2022-01-05 13:11:39 · 1112 阅读 · 0 评论 -
基于小世界网络的Cov-19扩散问题可视化研究
摘要:近年来,疾病传播问题得到了广泛的研究。一般来说,疾病的传播被认为是从一个人到另一个人的过程。目前,关于传染病在复杂网络上传播的研究很多。事实上,在现实生活中,传染病在人群网络中的传播是极其复杂的。由于社交网络呈现了一定的小世界网络特性,基于对现实中Covid-19传染病传播案例的研究,大部分大规模扩散的案例均是由于社交引起的,因此本文根据以上分析,基于WS小世界网络构建传染病传播模型并进行了可视化的传播分析,发现了病毒在小世界网络中的传播特点,并且以此为依据提出了防止新型冠状病毒疫情再次爆发的一些措施原创 2022-01-01 15:50:45 · 1111 阅读 · 2 评论 -
信息安全的密码学基于sagemath的python实现(RES、AES、RSA、ECC、哈希算法以及数字签名)
Mono-alphabetic Cipheralpha="abcdefghijklmnopqrstuvwxyz"def is_alpha_char(c):return (c.lower() in alpha)def get_alpha_index(c):return alpha.index(c.lower())def get_key_index(c,key): return key.index(c.upper())def encrypt_ma(k, plaintext): cip原创 2021-12-24 15:19:32 · 2536 阅读 · 0 评论 -
基于stacking集成学习的金线莲质量鉴别方法研究:人工智能与医疗的结合与发展
目前国内外对金线莲的品质鉴定通常依赖于化学分析方法,其中一种是分离成分鉴定法于2008年由曹扬远提出,将金线莲黄酮类成分和甾醇类成分的分离,测定金线莲中三种黄酮醇类物质的含量,可以作为衡量该药材质量的一个指标,以控制金线莲及其制剂的质量[5]。另一种化学分析方法即高效液相色谱法在2017年由邹舒鹏提出:利用金线莲HPLC测定法,主峰在供试品溶液中的保留时间与金线莲苷对照品峰应该相同,制订了金线莲苷HPLC鉴别法。最终采用薄层、高效液相色谱的鉴别[6]。随着我国科技实力不断增强,生产力水平日益提高,除了化学原创 2021-05-07 10:38:32 · 327 阅读 · 0 评论 -
对SVM分类算法进行可视化呈现:接上文SVM的python实现对分类结果进行可视化呈现,画支持向量机平面的分类图
接上文SVM的python实现,接下来对分类结果进行可视化呈现,画支持向量机平面的分类图:fig = plt.figure()ax = fig.add_subplot(111)cm_dark = mpl.colors.ListedColormap(['g', 'r','b'])ax.scatter(array(dataMat)[:,0],array(dataMat)[:,1],c=array(labelMat).squeeze(),cmap=cm_dark,s=30)x = arange(-2.原创 2021-05-07 10:31:42 · 1916 阅读 · 0 评论 -
SVM支持向量机方法python实现(非调用sklearn包):alpha的选取,随机选择一个不等于i值的j
项目场景:alpha的选取,随机选择一个不等于i值的j代码:def selectJrand(i,m): j=i while (j==i): j = int(random.uniform(0,m)) return j </font># 进行剪辑:def clipAlpha(aj,H,L): if aj > H: aj = H if L > aj: aj = L ret原创 2021-05-07 10:28:41 · 1061 阅读 · 0 评论 -
PCA主成分分析降维方法的原理及其实现,并且通过python编程实现可视化,利用matplotlib进行降维前后对比
PCA 降维的本质是,尽量保证数据在空间中的相对位置不变,通过旋转坐标系,换一个在某些维度能表达更多数据信息的坐标系去刻画数据。PCA降维方法极有成效地降低了实验数据的维度数,对解决信息冗余的问题有着积极作用,并且尝试建立精度最佳的集成学习模型并寻得最优的分类器组合。以下是代码及其输出结果```pythonimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.decomposition import PCA# 原始数据X原创 2021-05-02 12:19:44 · 807 阅读 · 0 评论 -
对机器学习各个经典算法的总结:KNN、高斯贝叶斯、随机森林、梯度增强、SVM支持向量机、Adaboost、逻辑回归算法
(1)K近邻分类器算法(K Neighbor): 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据 与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的 特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们 只选择样本数据集中前K个最相似的数据,这就是K-近邻算法中K的出处,通常来说K是不大于20的整数。 最后 ,选择K个最相似数据中出现次数最多的分类,作为新数据的分类。(2)高斯朴素贝叶斯分原创 2021-05-02 11:31:14 · 1376 阅读 · 0 评论 -
关于对python多线程处理数据的理解(以进程为例相对比)
定义:线程是指进程内的一个执行单元,也是进程内的可调度实体.与进程的区别:(1) 地址空间:进程内的一个执行单元;进程至少有一个线程;它们共享进程的地址空间;而进程有自己独立的地址空间;(2) 资源拥有:进程是资源分配和拥有的单位,同一个进程内的线程共享进程的资源(3) 线程是处理器调度的基本单位,但进程不是.(4) 二者均可并发执行.简而言之,一个程序至少有一个进程,一个进程至少有一个线程.线程的划分尺度小于进程,使得多线程程序的并发性高。另外,进程在执行过程中拥有独立的内存单元,而多个原创 2021-04-24 10:53:47 · 196 阅读 · 0 评论 -
机器学习:人工智能分支中的探索
机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器原创 2021-04-22 11:11:24 · 1289 阅读 · 0 评论 -
机器学习PYTHON中的SKLEARN常用模型
_ # LogisticRegressionfrom sklearn.linear_model import LogisticRegressionlr = LogisticRegression(max_iter=10000)_________________________________________________________ ### KNN Classifier from sklearn.neighbors import KNeighborsClassifier cl原创 2021-04-21 16:44:53 · 591 阅读 · 0 评论 -
python中list indices must be integers or slices, not tuple的报错
原本想用的代码:x1.scatter(X[:,0],X[:,1],c=‘r’,marker=‘o’)###无法使用列向切片画图,出现报错。分析:因为这样取列获得的是一个列的切片,可以理解为是一组标签。而画图的坐标点只能是一个标签,所以选择逐个读取应该没问题。###解决办法:用FOR循环实现:b=[x[0] for x in Y]d=[x[18] for x in Y]#使用b替代X[:,0]读取一整列ax1.scatter(b,d,c = ‘r’,marker = ‘o’)...原创 2021-04-19 15:56:59 · 383 阅读 · 0 评论 -
一种基于改进的LeNet-5 CNN模型通过图像监控雾度的方法
一、介绍近年来,空气污染不仅困扰发达国家,也有许多发展中国家,尤其是快速发展中的国家,例如中国和印度.在阴霾天气条件下,空气中有害颗粒物的浓度会升高,这对人民的健康构成了巨大威胁,对社会和经济发展构成了严重的障碍.此外,在雾霾天气条件下,能见度会大大降低,人们的生活方式受到了极大的影响,所拍摄图像的质量严重下降,个人或工业企业的户外监视也受到影响,例如电力线监视系统,铁路视频监视系统,交通监视系统,甚至边界探测监测系统。由于缺乏监测,雾霾预警,许多死亡事件发生,造成严重的社会和经济损失。雾霾图像极大地给社原创 2021-04-19 14:47:47 · 1046 阅读 · 0 评论 -
Python中机器学习的模型预测重复次数过多产生的警告处理(非报错)
程序是可以正常运行的,但是会有一行红色的WARNING。E:\Anaconda\lib\site-packages\sklearn\linear_model_logistic.py:762: ConvergenceWarning: lbfgs failed to converge 问题出在逻辑回归器LR的重复次数过多,已经超出了系统限制。修改前代码:lr = LogisticRegression()解决方法:设置lr = LogisticRegression(max_iter=10000)设置最大原创 2021-04-19 14:34:25 · 602 阅读 · 0 评论 -
利用Numpy如何处理数据接口,把list数据能够转成array数组并且进行循环
如何处理数据接口,把数据能够放入svm。涉及到数据格式的问题要解决这个必须针对每个细节:比如说使用NUMPY ARRAY也不能转换数据格式,那就先直接去查这个报错,查不到对应我状况的问题,再查NUMPY ARRAY函数用法,分析代码的意义寻找可能是错在了我本意利用APPEND把所有符合的框的信息放到list里得到个二维的list后,再通过np.array()转成数组。但实际上,我用的是循环结构,也就是list会转为数组后,再次把新的数组加进来,所以导致了报错。于是,我改成如下,循环里只放list,循环结原创 2021-04-19 11:12:17 · 283 阅读 · 0 评论 -
LENET-5卷积神经网络的深度学习技术
一、前言随着深度学习技术在智能驾驶、智慧金融、智能制造、智慧农业、智慧医疗、智能家居等领域的逐步应用,作为引领这一轮科技革命和产业变革的战略性技术,人工智能的产业化已经取得了显著的效果,显示出带动性很强的“头雁”效应。图像识别技术作为深度学习一个重要应用,是信息时代的一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展,人类对图像识别技术的认识越来越深刻。图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。卷积神经网络图像识别技术是一种比较原创 2021-04-19 11:06:27 · 3038 阅读 · 0 评论 -
如何在jupyter notebook标注
如何在jupyter notebook标注采用###形式是创建大黑体字,但使用起来较为麻烦在jupyter的markdown中,使用**开始和结束可以把中间的文字加粗,__也可以。使用*在开始和结束,或者使用_可以。但是想要些单双下划线的时候,可以通过转译也就是一个""放在下划线前面实现这个功能。但是注意如果在引用路径的时候是用/作为分隔号。但是要注意:这种方法是普通字体,并没有特别醒目...原创 2021-04-16 17:04:35 · 2460 阅读 · 0 评论