机器学习
qq_41386300
这个作者很懒,什么都没留下…
展开
-
机器学习(1)——什么是机器学习?
什么是机器学习?机器学习就是用已有的数据,通过算法去训练某种模型(把数据代到算法里计算出模型),用这个模型去预测未来(这个预测未来就是机器学习的价值)要有数据,数据越多,数据越好,算法越好,预测结果越准,价值越大机器学习是人工智能的核心总结:机器学习就是“拟人”机器学习分为有监督机器学习和无监督机器学习机器学习和人工智能的关系有监督机器学习训练流程如上...原创 2019-08-03 21:15:44 · 557 阅读 · 0 评论 -
机器学习(十四)——K-Means聚类
理解聚类:本质:1. K-Means做聚类理解k-Means过程例:对下图做聚类先随机生成k个中心点,如下图,k=3然后给定一个初始化分计算每个cluster的x,y的均值,使得每个cluster都产生一个均值中心点。然后根据距离调整划分情况,如下图,上图中的三角形离中心五角星更近,所以把它划分成五角星,新加入一个五角星后,中心自然会再次向新加入的方向移动一点,中心移...原创 2019-08-24 23:37:11 · 669 阅读 · 0 评论 -
机器学习(七)——用逻辑回归实现音乐分类案例,傅立叶变换相关
理解维度:图所以我们把X中的x可以叫做是一个特征,也可以叫做影响结果的因素,也可以叫做一个维度,每增加一个特征就是增加了一个维度音乐分类案例有十种类别的音乐,每种类别下有一百首歌,每一首歌都是所以我们一共有1000个特征怎么把这些音乐转换为特征呢?用傅里叶变换:图把一首歌变成频率的表达...原创 2019-08-13 23:27:57 · 1260 阅读 · 0 评论 -
机器学习(十五)——Canopy聚类
一次迭代就出结果,适用于初始的k个中心点参数:T1,T2规则:T2内的点和黑色点是一个类别,并且不能成为其他类别的中心点T1内T2外的小蓝点和黑点是一个类别,也可以成为其他类别的中心点T1之外的点不是这个类别,可以成为其他类别的中心点例:现在已经有一个中心点(就是小黑点),如果我们要选择下一个中心点,只能从蓝点和红点中选择,假设我们选了一个蓝点作为第二个类别的中心点,那么像图中一...原创 2019-08-25 23:11:09 · 361 阅读 · 0 评论 -
机器学习(十)——交叉验证
交叉验证我们之前训练模型的时候呢会传一个或多个超参数(例如,学习率,阈值等)那我们到底要传多少呢?是0.1?还是。01?还是0.001?我们也不能跑一ici次程序,记录下结果和超参数,然后再修改代码(修改超参数),再跑,再修改…有没有什么办法可以让它自动调整呢?于是就有了下面的办法:之前我们都是把数据分为测试集和训练集,现在再把训练集进行拆分,分成和验证集和训练集。流程:先用训练集拆分成两部...原创 2019-08-17 23:27:49 · 618 阅读 · 0 评论 -
机器学习(十二)——分类评估指标
1. 混淆矩阵例:上图中10行10列的数据,我们可以看出对角线的数据都格外的大,但是除了对角线的数据外也有一些例外的数据,它们也偏大一些,比如第7行第9列的236,第9行7列的223,5行7列的193,7行5列的231等等,我们也可以看出这些数的规律:把7和9弄错了,7和5弄错了的情况下就变成7行7列或9行9列,7行7列或5行5列,这就变成了对角线上的数,所以它们才会大。所以,混淆矩阵就是...原创 2019-08-22 19:26:56 · 222 阅读 · 0 评论 -
机器学习(十三)——相似度的计算方法
无监督机器学习特点:聚类特点:对于聚类来说,相似性非常重要,下面我们就来看看相似度怎么算最经典的就是欧式距离(两点之间的距离,上图中的二维空间公式)上图中右下角的第一个公式就是Jaccard系数,如果是距离的话第二个公式可以体现例:推荐系统相似度的两种测量方式:一个测量是高维空间里向量点和向量点的相似度;另一个是Jaccard系数(测量两个集合之间的相似度)...原创 2019-08-24 17:12:09 · 2848 阅读 · 0 评论 -
机器学习(十六)——聚类评估
1. Given labelGiven label就是有给了y,给了y’的哈好处就是可以根据y来对比,评估聚类的结果怎么样,好不好例:男女分类,均一性就是男类别例都是男的,但并不是所有男的都分进来了;完整性就是所有女的都被分到女生类别里了,但可能也有几个男的就像Precision和Recall结合起来生成F-Measure(f-score)一样,均一性和完整性结合起来生成V-Measure,...原创 2019-08-30 16:02:12 · 158 阅读 · 0 评论 -
机器学习(六)——多项式回归及通过案例学习做预测的流程
1. 多项式回归Polynomial regression有的时候我们的数据可能是非线性的变化,这个时候我们的线性模型就拟合不了了,怎么办呢?两种方法:(1)用非线性的算法(2)把数据变成线性的而多项式回归是用来做特征转换的,就是用第二种方法从上图中可以知道,多项式回归就是在升维(把两个维度的x变成里6个维度)例如:当原来只有两个维度x0,x1 升维度后(二阶)就变成了三个: x0...原创 2019-08-11 17:36:29 · 1717 阅读 · 0 评论 -
机器学习(六)——l1,l2 正则化以及Elastic-Net
1. Ridge Regression上图的公式 +后面是惩罚项,用来保证泛化能力的;+ 前面是我们的损失函数,用来保证我们的拟合效果的,而α是一个参数,用来让你决定更看重正确性还是泛化性,|| | |这个代表加和,即w0+w1+…对于泛化性和正确性的评估:当我们有数据时,把它分为两部分,训练集和测试集,一般训练集比较多正确性:通过模型对训练集里的数据求一下正确性,看拟合程度怎么样泛化...原创 2019-08-10 21:33:58 · 1271 阅读 · 0 评论 -
机器学习(二)——有监督机器学习训练流程
有监督机器学习训练流程如上图:训练集就是一堆x(x0…xn)和y我们的目标就是得到模型,也就是参数,例如 y=a+b*x, a和b就是参数,我们一般用W(w0…wn)表示,w有两部分,w0以及w1…wn,w1…wn对应x1…xn。所以对于 y=a+b*x来数,b就是w1,通常x0恒1,a就是w0只考虑一个x对y的影响的话,公式就等于:y=w0+w1x1考虑多个x的话:y=w0...原创 2019-08-03 21:17:26 · 681 阅读 · 0 评论 -
机器学习(三)——理解线性回归
理解回归现实中很多事情都服从正态分布很多事情都会回归到一定区间内总结:回归就是回归到平均值理解线性理解简单线性回归就是一元一次方程组,只有一个x也就是影响y的因素只有一个。维度是一维的当数据是一次方并且服从正态分布,适合用线性回归例如上图,线形回归就是让这条线尽可能穿过多的点怎么做?用最小二乘法(用每一个点的(预测值 - 真实值)的平方求和,然后除以个数)求得...原创 2019-08-04 17:15:08 · 261 阅读 · 1 评论 -
机器学习(四)——用解析解的方式求解模型
最大似然估计通俗来讲:假设你有一组身高的数据,有两个正态分布(踢足球的和打篮球的),打篮球的正态分布肯定是那种又细又高的,而踢足球的是宽低的,最大似然估计就是,把数据带进去看它属于哪个正态分布,假设有个一米九的,我们就可以猜出他是打篮球的中心极限定理在这里,我们的随机变量是误差的值概率密度函数概率密度函数:当f(x)越大说明某个x出现在这个正态分布上的概率越大f(x)并不是概率...原创 2019-08-08 11:47:50 · 954 阅读 · 0 评论 -
机器学习(五)——梯度下降法,归一化,过拟合
梯度下降法上图中,我们的目的不是找cost,而是找最小值处的模型theta梯度下降法步骤:对于调整theta,theta在最低点左边的时候,斜率grad<0 ,所以theta_t+1会变大,theta在最低点右边的时候,斜率grad>0 ,所以theta_t+1会变小,如果一定追求g=0,那样会使我们迭代特别多次,所以一般如果梯度(斜率)g< 0.15就停止了...原创 2019-08-09 10:49:33 · 1253 阅读 · 0 评论 -
机器学习(八)——理解神经网络
对前面所学的理解图上图中的加和是固定的,但是激活函数我们是可以选择的单层网络就可以看成是一个逻辑回归隐藏层的意义输入层和输出层之间的层叫隐藏层,隐藏层越多,处理的问题越复杂如上图,设x1是上房,x2是玩火,x3是动刀,Y是判断大过年你妈妈会不会打你假设我们没有隐藏层,输入之后直接输出,那么就是单纯的用你上房,动刀和玩火的次数判断会不会打你假设有隐藏层,H1为伤人,H...原创 2019-08-14 00:01:10 · 185 阅读 · 0 评论 -
机器学习(九)——Softmax做多分类
概括之前学的:上图中只有softmax做多分类回归还没接触,其他都接触过了,现在来讲讲Softmax回归如何做多分类,及它和逻辑回归做多分类的区别解读上图:借助下图的例子解读对于第一个公式,和逻辑回归不同的是theta下面多了个kk代表做的是几分类,如下图,做三分类k=1的时候,此时的theta就是一列:w1,w2,w3,w4k=2的时候,theta为一列:w5,w6,w7,w8...原创 2019-08-15 22:06:30 · 1547 阅读 · 0 评论 -
机器学习(七)——逻辑回归
1. 逻辑回归逻辑回归就是对多元线性回归的缩放公式如上图,其中t就是多元线性回归的公式:w的转置 * X,逻辑回归的y的取值范围为(0,1),而多元线性回归的y的取值范围是负无穷到正无穷逻辑回归适合做二分类,用0.5做间隔,大于0.5是一类,小于0.5是另一类知识点:代码实现鸢尾花案例——二分类:import numpy as npfrom sklearn import...原创 2019-08-13 22:08:42 · 262 阅读 · 0 评论 -
机器学习(十一)——决策树,随机森林
1. 决策树1.1 离散化决策树有一个先决条件:一定要对数据进行离散化,不管是离散数据还是连续数据,都要离散化对于连续数据离散化假设60,70,80分别代表低速,中速,高速,我们把< 60的变成0,60到70之间的变为1,70到80之间变为2,大于80的变为3,01,2,3之间的大小关系也对应于低中高速的大小关系,3个速度有3+1种分割方式对于离散型数据如果我们把晴天,雨天...原创 2019-08-18 22:12:14 · 874 阅读 · 0 评论 -
机器学习(十七)——密度聚类
分离的层次聚类:分裂,求相似性,相似性达到了,停止,没有达到则继续分裂…样本中有层次的包含关系(如省,市,县)适合用层次聚类,如果用层次聚类,人们一般用凝聚的层次聚类...原创 2019-08-30 16:32:03 · 364 阅读 · 0 评论