2018年11月_jingshuiliushen_zj

原创求a的开方

方法1：梯度下降令x=a\sqrt{a}a，那么x2=ax^2=ax2=a,写成方程的形式就是f(x)=x2−af(x)=x^2-af(x)=x2−a,问题就转化为求f(x)=0f(x)=0f(x)=0的解，怎么转化为用梯度下降求呢？因为梯度下降是求极值的问题，可以把f(x)f(x)f(x)看成是某个函数的导数，也就是g(x)=13x3−axg(x)=\frac{1}{3}x^3-axg(x)...

2018-11-19 10:19:21 759 1

原创判断两个矩形是否有重叠

今天笔试遇到这个题目，原来是图像中的问题：判断图像中检测到的两个人脸框矩形是否有重叠部分，并计算重叠大小，从而确认是否为同一个人脸。直接判断的话，情况有点多，比如：这样代码就比较繁琐了。如果是先考虑没有重叠呢？如上图所示，没有重叠的话，可以分为四种情况，假设红色矩形为A，绿色矩形为B，那么B可以分别在A的上、下、左、右四种情况。设A的左上角坐标为p1，右下角坐标为p2，B的左上角坐标...

2018-11-10 20:13:45 8650 2

原创根据三点坐标求三角形面积

point.pyimport mathclass CPoint: def __init__(self,x,y): self.x=x self.y=y def point_distance(self,p): return math.sqrt(math.pow(p.x-self.x,2)+math.pow(p.y-self.y,2))...

2018-11-10 17:02:31 5595

转载为什么要对数据进行归一化？

为什么要归一化1、提高梯度下降法求解最优解的速度如下图所示，蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的区间相差非常大，X1区间是[0,2000]，X2区间是[1,5]，其所形成的等高线非常尖。当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走），从而导致需要迭代很多次才能收敛；而右图对两个原始特征进行了归一化，其对应的等高线显得很圆，在梯度下降进行求...

2018-11-09 11:31:00 2481

原创 python中的文件读写

虽然研究了很多python代码，却没有整理过关于文件操作的，系统地整理下。一、普通的文件读写在磁盘上读写文件都是由操作系统控制的，应用读写文件就是请求操作系统打开一个文件对象，然后，通过操作系统提供的接口从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）。python内置了各种函数，来对文件进行操作。1、打开文件：open f = open('data/test.t...

2018-11-07 11:13:40 204

原创 KMeans聚类 K值的确定以及初始类簇中心点的选取

KMeans算法是最常用的聚类算法，基本思想是:在给定K值和K个初始类簇中心点的情况下，把每个样本点分到离其最近的簇中，然后重新计算每个簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小，或者达到指定的迭代次数。KMeans算法本身思想比较简单，但是确定一个合适的K值和K个初始类簇中心点对于聚类效果的好坏有很大的影响。K值的确定1、样本聚类误差平方...

2018-11-06 11:03:31 32192 6

原创处理数据不平衡的问题

普通的机器学习方法，对于非平衡数据分类，总是倾向于最大化占比多的类别的分类准确率，而把占比少的类别分类错误，但是，现实应用中，我们研究的问题，对于少数的类别却更加感兴趣。所以总结一下，处理不平衡数据的方法。（假设占比多的正样本，占比少的为负样本）1、过采样增加少类别的样本，代表算法是SMOTE算法，基本思想是对每一个负样本利用KNN找到K个近邻，在这k个近邻中根据采样倍率随机有放回的选取样本...

2018-11-05 17:42:03 379

原创 cs231n笔记2：损失函数和正则化

损失函数衡量的是对结果的不满意程度，是全部的训练样本的预测值与真实值的差值的和：L=1N∑iLi(f(xi,W),yi)L=\frac{1}{N}\sum_iL_i(f(x_i,W),y_i)L=N1∑iLi(f(xi,W),yi)，我们训练的过程也是通过更新权重w，努力减小损失函数的过程。损失函数的具体形式多种多样，下面介绍常用的多分类支持向量机（SVM）损失函数。一、多分类支持向量...

2018-11-05 14:52:25 703

原创 cs231n作业1：图像分类

作业是在ipython下开发完成的，首先要学会使用ipython。一、IPython使用Jupyter Notebook是以web交互式的编程接口，是一个编程工具，除了通常的新建、删除、更改、下载编程文件外，还支持在线编程运算可帮助持续开发，特别在企业中有些项目需要持续很长时间的开发，每天下班后关闭jupyter，只要服务器的kernel不关闭，jupyter会保存好开发时的数据缓存和可视化结...

2018-11-03 15:51:54 493

原创 cs231n笔记1：图像分类

几个术语初步了解下：图像分割、面部检测（Adaboost）、object recognization、SIFT（SIFT算法是一种提取局部特征的算法,在尺度空间寻找极值点,提取位置,尺度,旋转不变量）、语义分割（将像素按照图像中表达语义含义的不同进行分组）图像分类是计算机视觉领域的核心问题之一，并且有着各种各样的实际应用。其实在计算机视觉领域中很多看似不同的问题（比如物体检测和分割），都可以被...

2018-11-02 11:57:37 396

原创蓄水池采样原理

一、原理蓄水池采样算法解决的是在给定但长度未知的大数据集中，随机等概率抽取一个数据。如果知道数据集的长度，可以用随机数rand()%n得到一个确切的随机位置，那么该位置的对象就是所求的对象，选中的概率是1/n。那长度未知该如何取？尤其是如果这个大数据集不能一次性放入内存中，蓄水池采样算法就非常有用了。算法思路：我们总是选择第一个对象，以1/2的概率选择第二个，以1/3的概率选择第三个，以此类推...

2018-11-01 10:12:21 2114

jingshuiliushen_zj的博客