![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
琐碎记录
琐碎记录大杂烩
MrCharles
隐私
展开
-
Learning with Errors
【from wiki】容错学习问题 (通常称LWE问题,是 Learning with errors 的缩写)是一个机器学习领域中的怀疑难解问题。由 Oded Regev 在2005年提出,他因此赢得2018年哥德尔奖。这是一个极性学习问题的一般形式。Regev同时证明了LWE问题至少比几个最坏情况下的格问题要难。这个问题在最近[1][2] 被用作一种难度假设以创建公钥密码系统,例如 Peikert 提出的容错环学习密钥交换。虽然来自机器学习领域,但是学习时出错问题实际上是理论计算机科学中的计算复杂度问原创 2022-05-03 12:18:37 · 578 阅读 · 0 评论 -
python保存数据的各种方式比较(磁盘空间,时间消耗)
Npy and binary files are both really fast and small for dense data. If the data is sparse or very structured, you might want to use npz with compression, which’ll save a lot of space but cost some load time.If portability is an issue, binary is better th.原创 2022-03-16 10:50:53 · 903 阅读 · 1 评论 -
不同屏幕尺寸相差大么和不同尺寸屏幕比较
在这里插入图片描述原创 2022-02-03 18:49:35 · 484 阅读 · 1 评论 -
为什么我们需要ablation study?
用于验证哪一个组件起了最重要的作用;2)验证哪一组参数达到最好效果,其他参数为何不可以3)最主要,为什么可以这么好的效果原创 2022-01-29 14:55:51 · 555 阅读 · 0 评论 -
使用jupyter notebook 时明明已经安装了某个lib,还是出现ModuleNotFoundError
这是因为jupyter notebook要选择不同conda环境,但是运行jupyter 的时候,没有使用到这个环境,即使你已经conda activate这个环境,再执行jupyter。解决方法就是将conda环境写入jupyter notebook的kernel中在jupyter notebook中不同环境之间是通过切换kernel实现的。在conda环境下创建kernel文件,命令是conda install -n 环境名称 ipykernel。先进入conda的某个环境中,然后执行以下命令。p原创 2022-01-11 12:05:33 · 2254 阅读 · 2 评论 -
内存不足够怎么办,swap空间来相伴
工作研究中经常需要intensive的模型训练,但是目前可用的两台机器都是32GB的内存搭配24GB显存的RTX3090,因此使用起来经常发现内存不足够,进程会被系统直接kill。可是我们又想把所有的数据集加载到内存中,加快我们模型的训练速度,不然一边读取数据一边训练模型,GPU使用率非常低,训练的时间会很久。经过摸索,发现增加swap空间是可行的。swap交换空间只有在内存用尽的时候才会被使用到。虽然swap使用的是硬盘来代替内存空间,速度会慢非常多,但是只要数据能够加载到内存之中,多一点点数据在sw原创 2021-10-30 12:14:35 · 583 阅读 · 2 评论 -
又到10·24
又是一年1024,今年没啥好总结的,就总结一下平时工作学习用到的一些小技巧吧:1) 预则立。凡事动手之前都应该先思考一下计划,等到计划周全之后再去做,一般就会顺利很多。2) 做好记录。在做的过程中详细的记录所有的结果。各种参数,各种设置,各种尝试,一定要详尽记录。3) 及时总结。每个小阶段都需要及时总结,找到目前的问题,难点,困难等。4) 不要懒惰。懒惰是第一大杀手。...原创 2021-10-24 16:44:58 · 238 阅读 · 0 评论 -
利用TF dataset改善模型训练效率的最佳实践
不好的实践已经提前把数据全部保存为tfrecord, 以便提升模型训练的时候的效率,数据集大小大概为4G左右。使用如下数据集构建流程:def load_tfrecord_dataset(tfrecord_name, batch_size, shuffle=True, buffer_size=1024): """load dataset from tfrecord""" raw_dataset = tf.data.TFRecordData原创 2021-10-14 19:05:41 · 845 阅读 · 2 评论 -
Hill-climbing 算法python 实现
Hill-climbing 其实也不是很复杂,在这个博文里面,我假定一个512维度的空间中存在一个点point1 ,我的目标是随机初始化一个点,通过Hill-climbing找到这个目标点point1。 站在当前点,通过探索所有可能的走法去判断下一步哪一个走法是能够朝着目标靠近的。过程其实也不复杂,在512里面的某一个维度,走起来只有两种选择,加一个步长或者减去一个步长。如果下一步找不到比较好的选择,都不能靠近目标点,那么算法结束。具体代码可以看下面:原创 2021-09-22 14:02:49 · 746 阅读 · 0 评论 -
人脸识别App面临的安全风险
(一)网络和数据安全保障机制欠缺易造成人脸数据泄漏当前关于人脸识别技术的安全技术标准和使用规范不够完善,对于人脸数据控制者的责任和义务,人脸数据主体的权利以及人脸数据在收集、存储、处理等各环节应采取的安全措施缺少相关规定。因此,人脸识别技术的大部分开发企业和应用服务提供商已采取的安全措施可能难以应对人脸识别技术面临的安全威胁,容易发生人脸数据泄露等安全事件。除此之外,网络安全生态环境持续恶化,系统的安全漏洞几乎不可避免,因此人脸数据库泄漏事件也屡见不鲜。更为可怕的是,由于生物识别信息是唯一的,是不可再生的转载 2021-09-20 17:01:54 · 3262 阅读 · 1 评论 -
为什么OpenCV使用BGR而不是RGB?
https://learnopencv.com/why-does-opencv-use-bgr-color-format/Satya Mallick早期的开发者选择了BGR,为啥选择BGR呢?那时候流行的相机制造商和软件商都是用这个模式,例如微软使用的是BGR,微软的软件里面COLORREF的值的格式为0x00bbggrr。所以从那时候起,opencv就一直使用BGR。现在我们也还是使用BGR,这种反人类的设计,只能去习惯它(当然,早期它并不绝对反人类)。“Why not use RGB when e原创 2021-07-09 16:24:44 · 722 阅读 · 1 评论 -
Survey: A Survey on Image Tampering and Its Detection in Real-world Photos 图像仿冒
上图:人脸交换技术上图: 图像操作的相关概念一个tamper的例子原创 2021-07-09 11:38:32 · 253 阅读 · 0 评论 -
最近喜欢的几款乐器和民谣
阿朵使用的乐器:雨棍雨棍是天然仙人掌制作完成,雨棍声音一般来说是越长声音越好,另外持续的时间也越久。雨棍是模仿下雨的声音。这种乐器叫【rainstick】,起源于南美土著。老外很流行玩这个,演奏音乐的时候做伴奏。这起先是用于古代土著人祈求落雨的法器。所以叫【雨棒】。外面一般用一节空心的竹筒制作(当然也有其他材料),先在里面横插很多杆子(或是可以产生空隙的物件),留下空隙(从下图外形看起来有点像大号山药,上面的那些凹凸不平处其实是横穿竹筒的诸多杆子),然后填充金属小球或钉子,最后封死两头。演奏的时候拿原创 2021-07-08 09:24:07 · 591 阅读 · 0 评论 -
HSV三分量
1.如果想研究雾对图像HSV三个分量的影响,通过一个无雾图像的HSV三个分量与一个带雾图像的HSV三个分量进行对比,请问要用那些指标可以表示出这些分量的不同啊?图像的信噪比?清晰度?还是什么别的???2.rgb2hsv函数将图像转换到HSV空间后,再用imshow函数分别显示HSV三个分量的图像,那用imshow函数显示出来的三个图象是HSV三个分量吗?我看我得到的HSV三个分量图里面是以RGB三个数值来显示每一点的像素值的,那我的得到的是HSV三个分量的图吗?3.H,S,V不是表示的是色调,饱和度,亮原创 2021-07-07 20:33:30 · 1675 阅读 · 0 评论 -
opencv 对齐两幅图片
https://learnopencv.com/feature-based-image-alignment-using-opencv-c-python/def alignImages(im1, im2): # Convert images to grayscale im1Gray = cv2.cvtColor(im1, cv2.COLOR_BGR2GRAY) im2Gray = cv2.cvtColor(im2, cv2.COLOR_BGR2GRAY) # Detect ORB f原创 2021-07-06 09:50:04 · 860 阅读 · 0 评论 -
有趣的漫画
原创 2021-06-15 16:53:02 · 176 阅读 · 0 评论 -
高考加油,读书依然是成长最快的捷径
今天高考,作为受益于高考,受益于中国教育制度的过来人,今天想对所有考生说,尽力奋斗吧,读书依然是成长最快的捷径。当然,高考也并不是全部,他也不能决定终身。我也见过许多人考上了好大学,却虚度光阴。我想,高考的意义,在于提醒我们,时刻去拼搏,时刻进取,时刻保持积极乐观。加油。...原创 2021-06-07 18:41:17 · 203 阅读 · 0 评论 -
实验性综述:低光照图像增强
W. Wang et al.: Experiment-Based Review of Low-Light Image Enhancement Methods来自以上文章总结。原创 2021-05-26 15:14:57 · 602 阅读 · 0 评论 -
常见的数字图像处理
原创 2021-05-25 10:08:08 · 239 阅读 · 0 评论 -
峰值信噪比和结构相似性
本文摘自黑龙江大学硕士论文: 基于U-Net网络的低光照图像增强算法的研究与实现MAX 当作 信号, MSE 当作 噪声原创 2021-05-19 18:07:59 · 549 阅读 · 0 评论 -
learning to see in the dark: 弱光场景下基于相机底层信号的图像处理
Chen, C., Chen, Q., Xu, J., & Koltun, V. (2018). Learning to see in the dark. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3291-3300).针对以往的黑暗条件下图像处理的一些挑战,特别是短曝光的图像没有对应的ground truth的问题,该文提出了一个数据集,有一些列的短曝光的图像,同时.原创 2021-05-19 13:27:46 · 709 阅读 · 1 评论 -
收到了CSDN送的图书,表示感谢|对《程序员的三门课》的一表格表示疑问
突然收到快递短信,去物业一看竟然是CSDN送的图书,感觉很惊喜。最近颇为忙碌,都没有仔细写过什么博客,不过这种有人惦记的感觉还是挺不错的。感谢CSDN。这本书读了一下,也挺推荐给大家的,感觉还是非常有用的。不过读者也许会有自己的想法,例如对不同编程语言的分类问题:书中的这个表格中,对于C#恐怕是仁者见仁智者见智,我不太赞同他的结论,按照道理C#应该不能算作动态语言,这一点希望各位读者在评论区给出自己的意见。网络上找了另外一张图,Y轴的Strong weak 表示语言是强类型还是弱类型,X轴的Dy.原创 2021-05-15 12:00:51 · 174 阅读 · 3 评论 -
百题突击16:1,Roberta、Albert 分别对 Bert 做了哪些改进 2,XLNet 如何实现 Permutation Language Model 3,CycleGAN的生成效果为啥一般都
Roberta、Albert 分别对 Bert 做了哪些改进请参考:https://zhuanlan.zhihu.com/p/347846720XLNet 如何实现 Permutation Language Model请参考:https://zhuanlan.zhihu.com/p/70257427CycleGAN的生成效果为啥一般都是位置不变纹理变化,为啥不能产生不同位置的生成效果请参考:https://blog.csdn.net/weixin_41697507/article/detai原创 2021-04-27 21:25:52 · 283 阅读 · 0 评论 -
百题突击15:pytorch实现VGG16的网络/faster RCNN中RPN相比之前做了什么优化/dropout 是否用在测试集上/YOLO v3进行了几次下采样/列举几个梯度下降的方法
pytorch实现VGG16的网络:请参考:https://blog.csdn.net/qq_40360172/article/details/109176612faster RCNN中RPN相比之前做了什么优化:请参考:https://blog.csdn.net/weixin_30566111/article/details/96658575dropout 是否用在测试集上请参考:https://zhuanlan.zhihu.com/p/118390256YOLO v3进行了几次下采样原创 2021-04-26 21:30:16 · 279 阅读 · 0 评论 -
百题突击14:1,激活函数有什么作用,常用的的激活函数 2,怎么解决梯度消失问题 3,什么是端到端学习 4,Softmax的原理是什么?有什么作用? 5,CNN的平移不变性是什么?如何实现的? 6,
1,激活函数有什么作用,常用的的激活函数2,怎么解决梯度消失问题BN Relu使用 ReLU、LReLU、ELU、maxout 等激活函数sigmoid函数的梯度随着x的增大或减小和消失,而ReLU不会。使用批规范化通过规范化操作将输出信号xx规范化到均值为0,方差为1保证网络的稳定性.从上述分析分可以看到,反向传播式子中有ww的存在,所以ww的大小影响了梯度的消失和爆炸,Batch Normalization 就是通过对每一层的输出规范为均值和方差一致的方法,消除了ww带来的放大缩小的影响原创 2021-04-26 21:28:13 · 344 阅读 · 1 评论 -
百题突击13: 1,为什么必须在神经网络中引入非线性? 2,ReLU在零点不可导,那么在反向传播中怎么处理? 3,ReLU的优缺点 4,BN解决了什么问题 5,BN的实现流程
1,为什么必须在神经网络中引入非线性?2,ReLU在零点不可导,那么在反向传播中怎么处理?3,ReLU的优缺点4,BN解决了什么问题BN是由Google于2015年提出,这是一个深度神经网络训练的技巧,它不仅可以加快了模型的收敛速度,而且更重要的是在一定程度**缓解了深层网络中“梯度弥散”**的问题,从而使得训练深层网络模型更加容易和稳定。所以目前BN已经成为几乎所有卷积神经网络的标配技巧了。从字面意思看来Batch Normalization(简称BN)就是对每一批数据进行归一化,确实如此原创 2021-04-26 20:45:24 · 1435 阅读 · 0 评论 -
百题突击10:1,简述kmeans流程 2,kmeans对异常值是否敏感?为何? 3,如何评估聚类效果 4,超参数k如何选择? 5,kmeans算法的优缺点
1,简述kmeans流程随机初始化k个中心点;计算所有样本到中心点的距离;比较每个样本到k个中心点的距离,将样本分类到距离最近的类别中;k个类别组成的样本点重新计算中心点(如在每一个方向上计算均值);重复2-4,直到中心点不再变化。2,kmeans对异常值是否敏感?为何?K-Means算法对初始选取的聚类中心点是敏感的,不同的随机种子点得到的聚类结果完全不同K-Means算法并不是适用所有的样本类型。它不能处理非球形簇、不同尺寸和不同密度的簇。K-Means算法对离群点的数据进行聚类时,K原创 2021-04-22 16:37:18 · 4552 阅读 · 2 评论 -
百题突击9:1,简述XGBoost。 2,XGBoost和GBDT有什么不同? 3,XGBoost为什么可以并行训练? 4,XGBoost防止过拟合的方法? 5,XGboost为什么这么快?
1,简述XGBoost。2,XGBoost和GBDT有什么不同?3,XGBoost为什么可以并行训练?4,XGBoost防止过拟合的方法?5,XGboost为什么这么快?6,附加题(私聊老师)CV: GRU 和 LSTM 的区别Transformer 中的 encoder 和 decoder 的异同点...原创 2021-04-22 16:25:32 · 507 阅读 · 0 评论 -
百题突击8:1,简述GBDT原理。 2,GBDT常用损失函数有哪些? 3,GBDT如何用于分类? 4,为什么GBDT不适合使用高维稀疏特征? 5,GBDT算法的优缺点?
1,简述GBDT原理。2,GBDT常用损失函数有哪些?3,GBDT如何用于分类?4,为什么GBDT不适合使用高维稀疏特征?5,GBDT算法的优缺点?附加题:CV:原创 2021-04-22 16:19:26 · 552 阅读 · 0 评论 -
百题突击12:1,SVM算法的优缺点 2,SVM的超参数C如何调节 3,SVM的核函数如何选择 4,简述SVM硬间隔推导过程 5,简述SVM软间隔推导过程
1,SVM算法的优缺点优点可以解决高维问题,即大型特征空间;解决小样本下机器学习问题;能够处理非线性特征的相互作用;无局部极小值问题;(相对于神经网络等算法)无需依赖整个数据;泛化能力比较强;缺点当观测样本很多时,效率并不是很高;对非线性问题没有通用解决方案,有时候很难找到一个合适的核函数;对于核函数的高维映射解释力不强,尤其是径向基函数;常规SVM只支持二分类;对缺失数据敏感;2,SVM的超参数C如何调节C 类似于lamda, 不过相反,C越大,越能得到稀疏的模型。3,SV原创 2021-04-22 15:56:41 · 1429 阅读 · 0 评论 -
K40自动重启/自动关机/时间系统混乱
接上一篇文章:K40自动重启的分析(RTC)今天早上再次异常自动关机,醒来打不开手机,一看关机了,赶紧开机,看到时间瞬间抓瞎:今天是4月21号,自动关机竟然回到了4月3号凌晨? 黑人问号?遂打电话给小米客服,要求换机!我会在这个博客里面更新后续。在15天内的,大家有问题的手机一定要去换好的。...原创 2021-04-21 09:24:51 · 3153 阅读 · 0 评论 -
百题突击7:1,简述一下随机森林算法的原理 2,随机森林的随机性体现在哪里? 3,随机森林算法的优缺点? 4,随机森林为什么不能用全样本去训练m棵决策树? 5,随机森林和GBDT的区别?
文章目录1,简述一下随机森林算法的原理2,随机森林的随机性体现在哪里?3,随机森林算法的优缺点?4,随机森林为什么不能用全样本去训练m棵决策树?5,随机森林和GBDT的区别?1,简述一下随机森林算法的原理2,随机森林的随机性体现在哪里?3,随机森林算法的优缺点?4,随机森林为什么不能用全样本去训练m棵决策树?5,随机森林和GBDT的区别?...原创 2021-04-15 12:43:56 · 1148 阅读 · 0 评论 -
百题突击6:1,什么是集成学习算法? 2,集成学习主要有哪几种框架, 并简述它们的工作过程? 3,Boosting算法有哪两类,它们之间的区别是什么? 4,什么是偏差和方差?Bagging可以减少弱分
文章目录1,什么是集成学习算法?2,集成学习主要有哪几种框架, 并简述它们的工作过程?3,Boosting算法有哪两类,它们之间的区别是什么?4,什么是偏差和方差?5,为什么说Bagging可以减少弱分类器的方差,而Boosting 可以减少弱分类器的偏差?1,什么是集成学习算法?2,集成学习主要有哪几种框架, 并简述它们的工作过程?3,Boosting算法有哪两类,它们之间的区别是什么?4,什么是偏差和方差?5,为什么说Bagging可以减少弱分类器的方差,而Boosting 可原创 2021-04-15 12:41:42 · 954 阅读 · 0 评论 -
百题突击5:1,简述决策树的构建过程 2,D3决策树与C4.5决策树的区别 3,CART回归树构建过程 4,决策树的优缺点
文章目录1,简述决策树的构建过程2,D3决策树与C4.5决策树的区别3,CART回归树构建过程4,决策树的优缺点5. 决策树如何防止过拟合?说说具体方法1,简述决策树的构建过程机器学习 | 决策树的生成过程是怎样?(一)http://www.woshipm.com/ai/1083031.html步骤一:将所有的特征看成一个一个的节点,eg(拥有房产、婚姻状态、年收入这些特征,我们可以看成一个一个的节点。)步骤二:遍历当前特征的每一种分割方式,找到最好的分割点eg(婚姻状态这个特征,我们可以按照单身原创 2021-04-13 16:43:23 · 866 阅读 · 0 评论 -
百题突击4:1.逻辑回归相比线性回归,有何异同? 2.回1.写出全概率公式&贝叶斯公式 2.朴素贝叶斯为什么“朴素naive”? 3.朴素贝叶斯有没有超参数可以调? 4.朴素贝叶斯的工作流程是怎样的?
文章目录1.写出全概率公式&贝叶斯公式2.朴素贝叶斯为什么“朴素naive”?3.朴素贝叶斯有没有超参数可以调?4.朴素贝叶斯的工作流程是怎样的?5.朴素贝叶斯对异常值是否敏感?1.写出全概率公式&贝叶斯公式https://zhuanlan.zhihu.com/p/78297343https://www.jianshu.com/p/3ff548a8b3a3如果事件组B1,B2,… 满足1) B1,B2…两两互斥,即 Bi ∩ Bj = ∅ ,i≠j , i,j=1,2,…,且P(B原创 2021-04-12 15:37:17 · 1084 阅读 · 0 评论 -
SVM 决策边界为什么theta和回归方程垂直?
看了Andrew的课,这一块很多人不懂,但是使用一个简单的例子既可以理解,假设x2=-x1,也就是x1+x2=0,那么θ1=1,θ2=1\theta_1=1,\theta_2 = 1θ1=1,θ2=1, 所以就是垂直了,如下图右上角。Charles@SZ原创 2021-04-10 10:39:00 · 851 阅读 · 0 评论 -
百题突击3:1.逻辑回归相比线性回归,有何异同? 2.回归问题常用的性能度量指标 3.分类问题常用的性能度量指标 4.逻辑回归的损失函数
文章目录1.逻辑回归相比线性回归,有何异同?2.回归问题常用的性能度量指标3.分类问题常用的性能度量指标4.逻辑回归的损失函数1.逻辑回归相比线性回归,有何异同?许多人对线性回归都比较熟悉,但知道逻辑回归的人可能就要少的多。从大的类别上来说,逻辑回归是一种有监督的统计学习方法,主要用于对样本进行分类。在线性回归模型中,输出一般是连续的,例如y=f(x)=ax+by=f(x)=ax+by=f(x)=ax+b对于每一个输入的x,都有一个对应的y输出。模型的定义域和值域都可以是[-∞, +∞]。但是对于原创 2021-04-09 08:40:57 · 1075 阅读 · 0 评论 -
百题突击2:1.在模型评估过程中,过拟合和欠拟合具体指什么现象 2.降低过拟合和欠拟合的方法 3.L1和L2正则先验分别服从什么分布 4.对于树形结构为什么不需要归一化?
文章目录1.在模型评估过程中,过拟合和欠拟合具体指什么现象2.降低过拟合和欠拟合的方法3.L1和L2正则先验分别服从什么分布4.对于树形结构为什么不需要归一化?1.在模型评估过程中,过拟合和欠拟合具体指什么现象过拟合(overfitting)指的是模型在训练数据是表现非常好,但是在验证集上表现特别差。欠拟合(underfitting)指的是是模型在训练数据和验证集上表现都比较差。2.降低过拟合和欠拟合的方法降低过拟合的方法:减少特征的数量,你可以选择一下那些特征要使用,那些要丢弃,防止用太原创 2021-04-08 11:53:38 · 1017 阅读 · 0 评论 -
百题突击1:为什么要对特征做归一化/什么是组合特征/如何处理高维组合特征/欧式距离与曼哈顿距离/为什么一些场景中使用余弦相似度而不是欧式距离
为什么要对特征做归一化 ?特征间单位和尺度差异影响计算(涉及或隐含距离计算的算法的时候):拿Angrew Ng的课程的房屋价格预测举例,房子有很多属性,例如面积x1,多少房间x2,以及多少卫生间x3。 那么如果不归一化,进行距离有关的计算时,单位的不同会导致计算结果的不同,尺度大的特征会起决定性作用(x1),而尺度小的特征其作用可能会被忽略(x2,x3),为了消除特征间单位和尺度差异的影响,以对每维特征同等看待,需要对特征进行归一化。归一化有利于收敛(梯度下降算法角度):原始特征下,因尺度差.原创 2021-04-06 23:32:25 · 1265 阅读 · 2 评论 -
Coursera半价优惠
众所周知,Coursera是一个非常优秀的学习平台。根据这位大牛所说:我在纽约大学攻读计算机科学硕士的两年里,在 Coursera 平台上自学完成了 26 门课程,3 个专项系列(Specialization)证书,极大地提升了我在计算机科学领域的理论知识和编程能力。毫不夸张地说,在 Coursera 上学习到的知识和完成的软件项目很大程度上帮助我拿到并通过了北美顶尖科技公司的面试。Coursera 是一个非常棒的在线公开课程平台,无论你对理工科或者文科专业的某个领域感兴趣,都可以在这里学习到最前原创 2021-04-06 14:24:43 · 1093 阅读 · 1 评论