机器学习
Mr_fengzi
人生苦短,我用Python
展开
-
机器学习——NLP
机器学习的几个基本概念在机器学习和模式识别等领域中,一般需要将样本分成独立的三部分训练集(train set),验证集(validation set ) 和测试集(test set)。其中训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数,而测试集则检验最终选择最优的模型的性能如何。一个典型的划分是训练集占总样本的50%,而其它各占25%,三部分都是从样本中随机抽取。训练集:...原创 2019-08-05 15:06:02 · 4769 阅读 · 0 评论 -
机器学习——KNN算法
KNN(K-Nearest Neighbor)K-近邻算法,简单的说,该算法就是采用测量不同特征值之间的距离方法进行分类。KNN的工作原理存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入本有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取出样本集中特征最相似数据(最近邻)的分类标签。...原创 2019-08-05 15:43:09 · 363 阅读 · 0 评论 -
机器学习——单变量线性回归
线性回归简介线性回归,就是能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候,就能够预测出一个简单的值。线性回归中最常见的就是房价的问题。一直存在很多房屋面积和房价的数据,如下图所示:在这种情况下,就可以利用线性回归构造出一条直线来近似地描述放假与房屋面积之间的关系,从而就可以根据房屋面积推测出房价:线性回归的函数模型通过线性回归构造出来的函数一般称之为了线性回归模型...原创 2019-08-05 16:18:51 · 715 阅读 · 0 评论 -
机器学习——多变量线性回归
在上一篇文章我们提到过的线性回归中,我们只有一个单一特征量(变量)——房屋面积x。我们希望使用这个特征量来预测房子的价格。不妨思考一下,如果我们不仅仅知道房屋面积(作为预测房屋价格的特征量(变量)),我们还知道卧室的数量、楼层的数量以及房屋的使用年限,那么这就给了我们更多可以用来预测房屋价格的信息。...原创 2019-08-12 10:22:27 · 294 阅读 · 0 评论 -
机器学习——逻辑回归
之前学习了线性回归,本篇文章将介绍逻辑回归,逻辑回归和线性回归同样都属于有监督机器学习,那么它们有什么区别呢:线性回归:预测一个连续的值;逻辑回归:预测一个离散的值下面看一个例子:良性肿瘤 or 恶性肿瘤有一家医院希望我们能开发出一款分类器,可以通过数据分析出一块肿瘤到底是良性的,还是恶性的。0: 负例 “Negative Class” (良性肿瘤)1: 正例 “Po...原创 2019-08-12 11:15:46 · 315 阅读 · 0 评论 -
机器学习项目案例 简单的数字验证码自动识别
本片文章将实现一个识别验证码的案例。基本思路及步骤:1.先写一个关于验证码生成器的代码,得到一个有关验证码的库2.对验证码库中的验证码图片进行处理并对其分割3.训练数据,得到模型4.对未知的验证码图片进行预测由于目前的验证码的形式比较多样,但是验证的思路都是类似的,因此就先从简单的数字开始进行识别。我们先需要写一个验证码生成器,生成验证码库。验证码需要有5个数字,并且有不同的颜色,还...原创 2019-08-12 12:05:50 · 2536 阅读 · 6 评论 -
机器学习——决策树与随机森林
前面的文章介绍了逻辑回归,逻辑回归是一种线性有监督离散型分类模型;而决策树是一种非线性有监督离散型分类模型,随机森林和决策树一样也是一种非线性有监督离散型分类模型。下面看一个案例:决策树是通过固定的条件来对类别进行判断:决策树的生成:数据在不断分裂的递归过程,每一次分裂,尽可能让类别一样的数据在树的一边,当树的叶子节点的数据都是一类的时候,则停止分裂(if lese语句)。计算纯...原创 2019-08-12 13:27:03 · 1212 阅读 · 0 评论 -
机器学习——聚类
聚类:对大量未标注的数据集,按内在相似性划分为多个类别,类别内相似度大,类之间相似度小。聚类属于无监督机器学习回顾一下欧式距离的计算公式:二维空间的公式:三维空间的公式:下面引入相似度:余弦距离,余弦相似度余弦值的范围在[-1, 1]之间,值越接近于1,代表两个向量的方向越接近;越趋近于-1, 他们的方向越相反; 接近于0, 表示两个向量几乎于正交。最常见的应用就是计算文本相...原创 2019-08-12 14:15:42 · 1019 阅读 · 0 评论 -
机器学习——支持向量机SVM
逻辑回归的改进逻辑回归公式:当y = 1时,我们希望当y = 0时,我们希望逻辑回归的损失函数:如果y = 1时,如果y = 0时,这样我们就得到了下面公式:逻辑回归的损失函数:支持向量机的损失函数:SVM决策边界:SVM的核函数:用来使SVM能够处理非线性分类核函数和相似度:下面通过代码实现支持向量机处理数据集,代码如下:import n...原创 2019-08-12 14:35:48 · 191 阅读 · 0 评论