机器学习笔记
jxc_
这个作者很懒,什么都没留下…
展开
-
频繁项集之Apriori算法简述
Apriori算法是一个发掘数据内在关联的频繁项集算法,是数据挖掘领域内的经典算法。一、几个概念假设现有四种物品,分别为A、B、C、D。任一种和几种物品都可能会同时出现,我们想要了解这四种物品在出现时之间是否有联系,比如AB常常一起出现。以下几条记录为它们的出现情况。AB AC ABCD BC ABD频繁项集:frequent item set,是经常出现在一起的物品的集。例...原创 2020-03-30 19:34:56 · 1451 阅读 · 0 评论 -
聚类的性能度量
一、简述聚类的结果是将整个样本集划分为一个个子集,称为样本簇。但是划分的结果如何,同一簇内的数据是否达到了较高的相似性,且不同簇之间的相似性尽可能地低。也就是说,我们期望得到的结果是“簇间相似度”低且“簇内相似度”高的结果。为此我们需要对划分结果进行性能度量,以判断是否有效或有效性指标的高低。二、性能度量指标聚类性能度量大致有两类,一类是将结果与某“参考模型”进行比较,参考模型例如领域...原创 2020-03-30 16:00:28 · 714 阅读 · 0 评论 -
聚类之K-均值聚类
此文为《机器学习实战》《机器学习》学习笔记一、聚类在无监督学习中,学习的样本在训练之前无类别标记。聚类方法作为重要的无监督学习方法,学习的过程就是要将这些样本根据某特性的相似性来进行划分,相似性大到某一程度的数据样本将被放在一类中,得到一个个通常不相交的子集,这些子集也被称为簇,也就是说聚类的结果就是得到一些簇,但是簇内的数据的相似性是内在的,我们并不知道,簇识别就是去得知这些簇到底是什么...原创 2020-03-28 23:03:14 · 629 阅读 · 0 评论 -
支持向量机学习笔记
一、简介有数据集分隔超平面:将线性可分数据分隔开来的边界 。当数据为二维数据时,那么分割超平面就是一条直线。支持向量:离分隔超平面最近的那些点。可以将两类数据正确分开的平面有无数个,我们希望支持向量离分隔超平面的间隔越大越好,越大也就说明我们找到的分隔超平面越可信。二、函数间隔和几何间隔函数间隔:一般来说,当超平面 确定的情况下, 能够相对的表示点 距离超平面的远近,...原创 2019-12-27 16:53:15 · 239 阅读 · 0 评论 -
逻辑回归学习笔记
一、概念理解逻辑回归其实是一种分类算法,我们把它称作回归是因为我们要找到一个将数据分隔开的边界线,而我们通过根据现有数据进行学习来对这个边界做回归来获得这个分类的边界,即获得一组最佳拟合系数。我们用 来表示这条边界线,为系数。我们需要将这条边界线与数据的标记 联系起来,从而进行分类,若是二分类任务,那么标记 ,我们可以用一个函数来将实数值 转为 0/1 值。考虑连续性,我们用一种Sig...原创 2019-12-27 14:55:48 · 158 阅读 · 0 评论 -
线性回归学习笔记
一、什么是线性回归有一样本 ,包含d个属性,可以表示为 ,其中的 表示 在第 i 个属性上的取值,线性回归模型企图学得一个通过属性的线性组合来进行预测的函数,即:,一般用向量写成,在学习获得 和 从而找到最佳拟合各个样本的直线的过程就是线性回归。二、怎样确定 和 我们可以认为,当总体来说预测值 与实际标签 的差别最小时,即误差最小时,我们就获得了最佳拟合直线,如何衡...原创 2019-12-23 18:38:53 · 204 阅读 · 0 评论 -
朴素贝叶斯学习笔记
本文为学习《统计学习方法》、《机器学习实战》朴素贝叶斯相关的笔记。朴素贝叶斯,是基于贝叶斯定理和特征条件独立假设的分类方法。特征条件独立假设是指:给定一个实例的类标签,实例中的每个属性的出现都独立于实例中其他属性的出现。这也是算法被称为朴素贝叶斯的原因。公式推导我们有数据集,其中输入为特征向量 ,输出为类标记 。朴素贝叶斯要通过数据集学习先验概率和条件概率。先验概率: 这...原创 2019-12-18 11:47:10 · 214 阅读 · 0 评论 -
梯度上升法和梯度下降法中的梯度是什么
在一元一次函数中,函数的斜率可以代表函数在y方向上的变化率,如下图,函数的斜率为0.5,当 变化1,那么变化0.5.换一种方式来想,当前这条线和x轴的夹角为β,斜率其实是,其实可以理解为当发生变化时变化的方向 便是 乘以一个角度 β 的 tan 值。另外,斜率其实就是我们对函数中的 求导。基于以上,我们假设系数向量,最终激活函数的输入,我们要采取最优化方法来...原创 2019-12-10 18:00:58 · 557 阅读 · 0 评论 -
决策树之ID3
一组含n个实例的数据集,每一个实例长为m,其中包括m-1个特征(属性),最后一个为该特征的类别标签。 在此种数据集的基础上,有一棵树,这棵树上的非叶子节点均为某特征,叶子节点均为其父节点特征的特征值。 那么这棵树是怎么来的? 我们 1.首先要在当前数据集中...原创 2019-11-22 10:15:18 · 77 阅读 · 0 评论 -
香农熵
香农熵,又称信息熵,熵,可以用来代表某数据集合的不一致性。熵的值越高,则代表数据集的不一致性越高。 熵与概率的关系 举例:当一个桶中有四个球,从左到右分别为红色、红色、红色、绿色。现有放回地从桶中抓球,每次抓取一个,求抓出球的顺序仍然为红、红、红、蓝的概率。 可知,第一次抓出红球的概率:0....原创 2019-11-21 16:00:22 · 321 阅读 · 0 评论 -
k近邻算法
k近邻算法,顾名思义,找前k个最近的“邻居”。 所以,怎样算近?就是距离小的。 怎么算距离?以下。 现有一组数据集, DataSet = [ [0.1,0.0] , [0.7,1.1] , [1.2,1.0] , [0.2,0.3] ] 对应标签为 labels = [ 'A','B' ,'B' ...原创 2019-11-22 17:26:04 · 81 阅读 · 0 评论 -
按字节读文件
在读取手写藏文字符数据集的时候,下载下来的文件是.pot文件,一开始以为是ppt的模块文件,后来发现ppt打不开这种文件,重读官网数据集说明,发现了下图:图片来自http://www.csdata.org/en/p/19/可以看出来,这个pot文件是自定义的文件格式,里面的数据按2B存储,因此读数据也要每次两个字节这样来读with open(filename,'...原创 2019-11-28 19:54:39 · 389 阅读 · 0 评论 -
opencv轮廓检测和多边形拟合
假如我们有一张图片,里面有很多红色的不规则多边形,我们想要获取这些多边形的边缘坐标cv2.thresholdcv2.findContourscv2.approxPolyDPimport cv2import numpy as npimport imutilsfrom PIL import Image,ImageDrawlower_red = np.array([0...原创 2019-11-28 20:54:19 · 1939 阅读 · 0 评论 -
给图像加椒盐噪声
"""#对某图片添加椒盐噪声(此处为3通道图片)#如果图像时单通道的,那就直接赋一个值即可,255或0以下pNum为像素点个数;nRate为信噪比"""def addNoise(filename): import cv2 import random import numpy as np im = cv2.imread(filename) ...原创 2019-11-29 16:42:39 · 959 阅读 · 0 评论