机器学习
周博u010083327
这个作者很懒,什么都没留下…
展开
-
《机器学习(周志华)》Chapter3 线性模型
本章介绍线性模型,性模型能解决哪些现实中的问题?主要有对连续数据的预测(回归问题)、二分类问题、线性判别分析(LDA)和多分类问题。一、单变量线性回归、多变量线性回归1、线性回归基本形式:目的是训练出一组w和b使得y≈f(x),一般用均方误差度量即:(上式也可以理解为求数据到直线的欧式距离最小)要求出最小值,对3.4式求导后等于零即可求出:2、多变量线性回归:基本形式:同理也是试图训练出w和b使得...原创 2018-03-30 15:40:53 · 435 阅读 · 0 评论 -
《机器学习(周志华)》Chapter6 支持向量机
支持向量机的推理过程作者都是一带而过,这可苦了我这种基础不好的学生,在查阅大量资料之后算是对支持向量机有一定的理解,分享给大家。一、间隔与支持向量机:要理解这节需要理解一下几点即可:1、点到平面的距离公式:即得出点到平面的距离公式:2、理解下图:首先我们已知假设超平面将样本分为两类(正例一定为+1,反例一定为-1),我们联想到对率回归的Sigmoid函数就能理解y=+1,y=-1,而支持向...原创 2018-04-09 10:02:58 · 493 阅读 · 0 评论 -
《机器学习(周志华)》Chapter7 贝叶斯分类 课后习题答案
7.1 试使用极大似然法估算西瓜数据集3.0中前3个属性的类条件概率. 即求属性为X={色泽, 根蒂, 敲声},c={是, 否},的类条件概率P(x|c)根据西瓜书P149.极大似然法,同理假设P(x|c)具有确定的形式并且被参数向量θc唯一确定。根据公式可得题目转化为求:$$LL(\mathop \theta \nolimits_C ) = \sum\limits_{x \in \ma...原创 2018-04-14 10:21:13 · 14897 阅读 · 0 评论 -
《机器学习(周志华)》Chapter5 神经网络
一、神经元模型:θ为阀值,输入样本x与权重w相乘再求和若大于阀值θ则兴奋即输出为1,否则抑制输出为0,f为激活函数经典的有Sigmoid函数二、感知机与多层网络:感知机由两层神经元组成若θ设置为常数,则可训练出权重w多层前馈神经网络:三、误差逆传播算法称BP算法,采用链式求导法则求出各层权重及阀值的导数。假设神经网络的输出为:则均方误差为:梯度下降:η为学习率首先求隐藏层到输出层权重Whj进行求导...原创 2018-04-02 11:38:22 · 471 阅读 · 0 评论 -
Linux下Pycharm、Anaconda环境配置
配置环境花了我一下午的时间,简单记录一下,希望能帮到一些新手。1、下载PyCharm:https://www.jetbrains.com/pycharm/download/#section=linux下载完成后将压缩文件解压,然后打开终端执行:cd downloads/pycharm-2018.1/binbash pycharm.sh启动pycharm后需要注册,选择License ser...原创 2018-04-03 17:38:37 · 26240 阅读 · 7 评论 -
《机器学习(周志华)》Chapter2 模型评估与选择
这一章几乎把整个机器学习的工作流程都介绍了一遍,能让读者了解到如何一步步的搭建一个机器学习项目。下面先把整个流程大致的梳理一遍:一、评估方法:我们在拿到数据之后首先要处理的就是将数据划分为训练集和测试集,西瓜书提供了三种方法,分别是:留出法、交叉验证法和自助法。1、留出法:将数据集划分为两个互斥的集合,将70%划分为训练集,30%划分为测试集。如果我们希望评估的是整个训练集的模型性能,而留...原创 2018-03-28 16:47:45 · 473 阅读 · 0 评论 -
《机器学习(周志华)》Chapter2 模型评估与选择 课后习题答案
根据题意可知正例和反例各位50个样本,题目假定的算法为若训练集中正例较多则为正例,反之为反例。1、先考虑简单的留一法:若取得1个正例为测试集,则剩下训练集为49个正例50个反例,算法预测为反例,则与测试集预测相反。反之同样成立,则留一法的错误率为100%2、10折交叉验证若测试集中正例与反例各为5个,则剩下训练集为45个正例45个反例,因为训练样本数据相同时进行随机猜测,则错误率为50%若测试集中...原创 2018-03-28 17:59:25 · 618 阅读 · 0 评论 -
《机器学习(周志华)》Chapter6 支持向量机 课后习题答案
变成向量的方式即为:查看代码及数据集查看代码及数据集原创 2018-04-12 10:52:12 · 2703 阅读 · 0 评论 -
《机器学习(周志华)》Chapter7 贝叶斯分类
一、贝叶斯决策论 贝叶斯分类器通俗点理解就是在给定样本的情况下使得分类正确的概率越大,则分类器越好。反之分类错误的概率越小分类器越好。举个例子:以西瓜数据3.0为例,对编号为1的数据进行预测,预测是好瓜的概率越大分类器越好,这很容易理解。我们可以将问题转化为最小化分类错误的概率,对于多分类类别我们考虑分类成所有不同类别期望损失(可以简单考虑为类别的平均值),假设有N种可能的假设,即y={c1...原创 2018-04-12 16:40:54 · 1403 阅读 · 0 评论 -
《机器学习(周志华)》Chapter8 集成学习
想了解更多的同学强烈建议阅读下参考网址。 集成学习大致可分为两类,第一类的代表是Boosting,个体学习器间存在强依赖关系、必须串行生成的序列化方法;第二类的代表是Bagging和“随机森林”,个体学习器间不存在强依赖关系、可同时生成的并行方法。1、bagging:从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果:2、bo...原创 2018-04-20 17:17:55 · 638 阅读 · 0 评论 -
《机器学习(周志华)》Chapter4 决策树 课后习题答案
由决策树生成过程可知,不含冲突数据对结点标记有两种情况,一、划分后数据集为同一类则结点标记为该类的叶节点,二、划分后数据集中的属性相同则标记为数据集中类别最多的类。这样所有属性相同的样本最终标记必定会一样,即必存在误差为0的决策树。训练误差不一定能代表泛化误差,若以最小训练误差作为决策树划分选择准则会容易导致过拟合,泛化性能差4.3编程实现id34.4编程实现CART...原创 2018-03-31 17:18:48 · 1542 阅读 · 0 评论 -
4.4编程实现CART
# -*- coding: utf-8 -*'''''@author: PY131'''''import osos.environ["PATH"] += os.pathsep + 'D:/python(ruanjian)/Graphviz/bin/'class Node(object): ''' definition of decision node class...转载 2018-03-31 16:49:51 · 544 阅读 · 0 评论 -
《机器学习(周志华)》Chapter3 线性模型 课后习题答案
偏置项b在数值上代表了自变量取0时,因变量的取值;1.当讨论变量x对结果y的影响,不用考虑b; 2.可以用变量归一化(max-min或z-score)来消除偏置。这里提供大致思路,对一元函数而言,求二阶导,如果二阶导小于零则为凸函数,否则为非凸。若对多元函数求二阶导,需要得到Hessian矩阵,然后根据Hessian的正定性判定函数的凸凹性,比如Hessian矩阵半正定,函数为凸函数;Hessia...原创 2018-03-30 15:49:45 · 1529 阅读 · 0 评论 -
激活函数在神经网络中的作用
参考文章:http://www.sohu.com/a/211320716_206784这里做个简要总结:1、假设神经元的激活函数为线性函数,以二分类问题为例:若使用单层感知机,则:只能产生出一条直线,上面的二分类问题根本无法用直线来分类,我们尝试用多个感知机组合试试:从图中我们可以计算出,无论怎么组合,输出y始终未线性方程,无法解决非线性问题。2、理解激活函数每个神经元加入最简单的阶跃激活函数的时...原创 2018-04-08 11:28:31 · 1812 阅读 · 0 评论 -
3.3编程实现对率回归
"""Author: VictoriaCreated on: 2017.9.14 11:00"""import matplotlib.pyplot as pltimport numpy as npimport pandas as pddef sigmoid(x): """ Sigmoid function. Input: x:np.array...转载 2018-03-31 10:54:28 · 4421 阅读 · 1 评论 -
3.4 10折交叉验证和留一法对率回归的错误率
"""Author: VictoriaCreated on: 2017.9.15 11:00"""import numpy as npimport matplotlib.pyplot as pltdef readData(): """ Read data from txt file. Return: X1, y1, X2, y2, X3, y3...转载 2018-03-31 11:05:30 · 4322 阅读 · 1 评论 -
3.5 编程实现线性判别
"""Author: VictoriaCreated on: 2017.9.15 11:45"""import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdef LDA(X0, X1): """ Get the optimal params of LDA model given trai...转载 2018-03-31 11:13:29 · 592 阅读 · 0 评论 -
《机器学习(周志华)》Chapter1 绪论
为了避免自己对知识遗忘过快,所以决定对自己学习机器学习的过程做一下记录,也希望能帮到一些初学者!1、基本术语:(非常重要)数据集:记录每条数据,数据由属性和属性值组成,这样的集合称为数据集合示例、样本、特征向量:每条记录是关于一个事件或对象(这里是一个西瓜)的描述属性、特征:反映时间或对象在某方面的表现或性质的事项属性空间、样本空间、输入空间:属性张成的空间维数:每个样本由d个属性描述(例...原创 2018-03-21 18:07:29 · 565 阅读 · 0 评论 -
《机器学习(周志华)》Chapter4 决策树
决策树算法比较容易理解,在这里简单做一下记录。一、决策树:决策树解决分类问题,简单来说就是依次选择样本属性作为结点,将该样本属性值作为叶子来展开,最终划分出的叶子标记为训练样例数最多的类别。二、划分选择:在选择属性的时候到底改选择哪个属性?这就引出了划分选择,选择出决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高,文中介绍了三种方式:信息增益、增益率、基尼指数。1、信息增益...原创 2018-03-31 15:24:43 · 728 阅读 · 0 评论 -
《机器学习(周志华)》Chapter5 神经网络 课后习题答案
若用线性函数作为神经元激活函数则无法处理复杂的非线性问题。激活函数在神经网络中的作用相当于每个神经元都在进行对率回归学习率控制着梯度下降的搜索步长,学习率过大收敛过程容易发生振荡,学习率过小收敛速度过慢https://blog.csdn.net/victoriaw/article/details/78075266https://blog.csdn.net/snoopy_yuan/article/d...原创 2018-04-08 11:11:29 · 3067 阅读 · 0 评论 -
4.3编程实现id3
# -*- coding: utf-8 -*'''''create on 2017/3/24, the day after our national football team beat south korea@author: PY131''''''''definition of decision node classattr: attribution as parent f...转载 2018-03-31 16:44:09 · 682 阅读 · 0 评论 -
《机器学习(周志华)》Chapter8 集成学习 课后习题答案
闲时完善-------------------------------------------------------------------------------------------------------------------8.1 假设抛硬币正面朝上的概率为p,反面朝上的概率为1 - p. 令H(n)代表抛n次硬币所得到正面朝上的次数,则最多k次正面朝上的概率为\[p(H(n) \l...原创 2018-04-23 13:58:10 · 7727 阅读 · 2 评论