机器学习-基础概念学习笔记(一)

基础概念学习

各种评定指标:

  1. 曼哈顿距离(Manhattan Distance): 出租车几何或曼哈顿距离,是种使用在几何度量空间的几何学用语,用以标明两个点在标准坐标系上的绝对轴距总和,此距离和欧式距离的不同是测算绕开障碍物的距离总和,其中包含预估代价和实际代价,而曼哈顿距离就是两个代价的总和。

  2. 欧氏距离 (EuclideanDistance):点与点之间的直线距离。

  3. 切比雪夫距离 ( Chebyshev Distance ):  国际象棋每走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?自己走走试试。你会发现最少步数总是max(| x2-x1 | , | y2-y1 | ) 步。有一种类似的一种距离度量方法叫切比雪夫距离。

  4. 闵可夫斯基距离(MinkowskiDistance):当p=1时,就是曼哈顿距离,当p=2时,就是欧氏距离,当p→∞时,就是切比雪夫距离。

  5. 标准化欧氏距离(Standardized Euclidean distance ): 标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路:既然数据各维分量的分布不一样,好吧!那我先将各个分量都“标准化”到均值、方差相等吧。均值和方差标准化到多少呢?这里先复习点统计学知识吧,假设样本集X的均值(mean)为m,标准差(standarddeviation)为s。

  6. 马氏距离(MahalanobisDistance): 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),就是欧氏距离了。若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。

  7. 夹角余弦(Cosine): 夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小,夹角余弦越小表示两向量的夹角越大。

  8. 汉明距离(Hammingdistance): 两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。

  9. 杰卡德相似系数(Jaccardsimilarity coefficient):  两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示, 杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

  10. 相关系数( Correlation coefficient )与相关距离(Correlation distance): 相关系数是衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性相关时,相关系数取值为1(正线性相关)或-1(负线性相关)。

  11. 信息熵(Information Entropy): 信息熵是衡量分布的混乱程度或分散程度的一种度量。分布越分散(或者说分布越平均),信息熵就越大。分布越有序(或者说分布越集中),信息熵就越小。

 

关于图像分类基础概念:

  1. 刚体&非刚体的变化:不同类型其变化都不一样

  2. 多视角:收集同一个物体图像,获取的角度是多变的;

  3. 尺度:在现实生活中,很多物体的尺度都是千变万化;

  4. 遮挡:目标物体可能被挡住。有时候只有物体的一小部分是可见的;

  5. 光照条件:在像素层面上,光照的影响非常大;

  6. 类内差异:一类物体的个体之间有许多不同的对象,每个都有自己的外形。

  7. KNN( k-Nearest Neighbor):L1曼哈顿距离,L2欧式距离计算现有图片和训练图片中每个像素点的差异,计算距离之和,之前的方式是采用最相近的赋予同样的标签,而KNN会选择一组相近图片,通过邻居投票的当时选择赋予哪一个标签。

聚类方法:

  1. Canopy聚类:这种聚类没有迭代,一次迭代就出结果,T1>T2,且T1内,T2外的类别不确定,T2内的一定和中心点是一个类别。而且T1内,T2外的点可以同属于两个类别。收敛条件为所有的点都被划分到某一类别里边。这种聚类的好处是分布比较均匀,T2范围内的点不会成为新的中心点,这样选出来的中心点会离现有中心点比较远,此聚类方式不需要想kmeans指定k,这样分类个数不会稳定,同时一个点可以同属于两个类。Canopy聚类可以作为kmeans聚类的先验知识,先聚类一下,然后决定k的个数和中心点的相对分布。

  2. 聚类评估指标:1)Given Label有y的情况也可以用来聚类,可以使用y进行评估,五个指标,均一性(precision,有点类似于准去率,一个类内确实属于容易类别),完整性(recall,有点类似召回率,大部分此类别的样本均已经召回),V-Measure(有点像F1_Score)2)ARI评估 3)轮廓系数:没有y的情况,计算同簇类两两样本间的平均距离,其实是计算同一类别的相似性,距离越小越好,计算一个簇内到不同簇内所有样本的距离求平均,然后求最小的距离,算作不相似性。相似度很小,a为相似性,b为不相似性,不相似度很大s(i)=(b(i)-a(i))/max{a(i),b(i)}

  3. 层次聚类:类似无监督的决策树,分裂的层次聚类DIANA和凝聚的层次聚类AGNES,不断计算样本之间的相似度,然后进行分裂或者聚集,一般情况使用凝聚的更多。适合层次聚类的最好有层级包含关系,类似于地区,省市区等。如何凝聚,尤其簇和簇之间怎么凝聚,三个指标,最小距离,最大距离和平均聚类,来评判簇和簇之间是否凝聚

  4. 密度聚类:针对不规则的分布,统计样本之间的密度,给定一个阈值,不断地把样本添加到最近的簇,缺点是计算量比较大,空间索引可以降低计算时间和查找速度,经典算法有DBSCAN(density based spatial clustering of application with noise)还包含几个概念:1)对象邻域:跟定对象在半径内的区域,针对簇中的每一个点计算,新来的样本是否在这个点邻域内,如果在,则纳入其中。但是可以计算邻域的点是有条件的,跟定的阈值是密度大于多少个点才能成为核心对象,只有核心对象才有资格去圈其他的点。密度可达代表几个簇可以相互连接成为一簇。除了密度阈值还有半径参数,这两个超参数可以决定聚类的效果。优点,不需要k,可以做异常点检测,缺点,有些店不属于任何类,centers的初始点可以随便选

  5. 谱和谱聚类:推导过程较为复杂,谱,Y=A*X,矩阵X乘以A等于对矩阵X做了空间线性变化,举个例子,音乐的傅里叶变化,就是在抽取声音的频谱,也就是特征向量,可以说为通过主要特征区分类聚类,并不是抽取X1XN某个维度,而是通过数学计算去生成一个新的特征组合之后的维度。这个可以和神经网络中的隐藏层作类比,可能隐藏层没有特殊的含义,但是基本是这个思路,Y=map(A),这里边的A是个矩阵,是map这个线性算子,它的所有特征的全体,称之为方阵的谱,方阵的谱半径最大的特征值

 

关于SVM:

  1. 分类间隔在保证决策面方向不变且不会出现错分样本的情况下移动决策面,会在原来的决策面两侧找到两个极限位置(越过该位置就会产生错分现象)

  2. 最优决策面虚线的位置由决策面的方向和距离原决策面最近的几个样本的位置决定。而这两条平行虚线正中间的分界线就是在保持当前决策面方向不变的前提下的最优决策面

  3. 支持向量而这个真正的最优解对应的两侧虚线所穿过的样本点,就是SVM中的支持样本点,称为“支持向量”。A决策面就是SVM寻找的最优解,而相应的三个位于虚线上的样本点在坐标系中对应的向量就叫做支持向量

  4. SVM核心问题:不等式约束条件下的优化问题

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值