机器学习
TaoismShi
这个作者很懒,什么都没留下…
展开
-
《机器学习》阅读心得--二、模型评估与选择
二、模型评估与选择2.1 经验误差与过拟合 学习器(学习到的模型)在训练集上输出结果与真实结果之间的误差称为“经验误差”,而在新样本上的输出结果与真实结果之间的误差称为“泛化误差”。 经验误差与泛化误差之间并不存在着简单的单调关系。如果过分追求经验误差的减小,会使得学习器过于特化,丢失其一般性,不能很好的应用在新的样本上。这种情况称为“过拟合”。与之相对的是“欠拟合”,学习器尚未充分学习原创 2017-07-10 20:59:32 · 639 阅读 · 0 评论 -
《机器学习》阅读心得--一、绪论
机器学习》阅读心得记录 一、绪论 机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。所研究的主要内容,是在计算机上通过数据中产生“模型”的算法,即“学习算法”。原创 2017-07-08 17:13:01 · 751 阅读 · 0 评论 -
《机器学习》阅读心得——十一、特征选择和稀疏学习
十一、特征选择和稀疏学习11.1 子集搜索和评价 对一个学习任务来说,给定属性集,其中有些属性可能很关键,另一些属性可能没什么用,我们将属性称为“特征”,对当前学习任务有用的属性称为“相关特征”,没什么用的属性称为“无关特征”。从给定的特征集中选出相关特征子集的过程,称为“特征选择”。 特征选择是一个重要的“数据预处理”的过程,在现实机器学习任务中,获得数据之后通常先进行特征选择,原创 2017-09-11 21:45:38 · 1903 阅读 · 0 评论 -
《机器学习》阅读心得——十、降维与度量学习
第十章 降维与度量学习1 k近邻学习2 低维嵌入第十章 降维与度量学习10.1 k近邻学习 k近邻学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。通常,在分类任务中使用“投票法”,即选择k个样本中出现最多的类别标记作为预测结果;在回归任务中可使用“平均法”原创 2017-09-01 21:34:19 · 2016 阅读 · 0 评论 -
《机器学习》阅读心得——七、贝叶斯分类器
1 贝叶斯决策论7.1 贝叶斯决策论 贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。 假设有N种可能的类别标记,即y={c1,c2,...cN}y=\{c_1,c_2,...c_N\},λij\lambda_{ij}是一个将真实标记为cjc_j的样本误分类为原创 2017-08-13 17:32:29 · 1323 阅读 · 0 评论 -
《机器学习》阅读心得——八、集成学习
1 个体与集成2 Boosting3 Bagging与随机森林31 Bagging32 随机森林4 结合策略41 平均法42 投票法43 学习法5 多样性51 误差-分歧分解52 多样性度量53 多样性增强8.1 个体与集成 集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统。 图8.1 集原创 2017-08-16 22:50:21 · 2956 阅读 · 3 评论 -
《机器学习》阅读心得——六、支持向量机
六支持向量机1 间隔与支持向量六、支持向量机6.1 间隔与支持向量 给定训练样本集D={(x1,y1),(x2,y2),...,(xm,ym)}D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\},分类学习的思路是在样本空间中找到一个划分超平面,将不同类别的样本分开。在样本空间中,划分超平面可通过以下方程来描述:ωTx+b=0\om原创 2017-07-30 13:59:07 · 1045 阅读 · 0 评论 -
《机器学习》阅读心得——四、决策树
四决策树1 基本流程2 划分选择21 信息增益22 增益率23 基尼指数3 剪枝处理4 连续与缺失值41 连续值处理42 缺失值处理5 多变量决策树四、决策树4.1 基本流程 顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面对决策问题时一种很自然的处理机制。 一般的,一颗决策树包含一个根节点,若干个内部节点和若干个叶节点。叶原创 2017-07-17 23:51:23 · 1051 阅读 · 0 评论 -
《机器学习》阅读心得---三、线性模型
三、线性模型 给定一个由d个属性描述的示例x=(x1;x2;...;xd)x=(x_1;x_2;...;x_d),其中xix_i是x在第i个属性上的取值,线性模型试图学习到一个通过属性的线性组合来进行预测的函数,即f(x)=ω1x1+ω2x2+...+ωdxd+bf(x)=\omega_1x_1+\omega_2x_2+...+\omega_dx_d+b 用向量形式可写为f(x)=ωT原创 2017-07-11 21:48:05 · 617 阅读 · 0 评论 -
《机器学习》阅读心得——五、神经网络
五神经网络1 神经元模型五、神经网络5.1 神经元模型 本书使用的对神经网络的定义是:“神经网络是由具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交叉反应”。 神经网络中最基本的成分是神经元模型。在生物神经网络中,每个神经元与其他神经元相连,当它“兴奋”时,就会向相连的神经元发送化学物质,从而改变神经元的电位;原创 2017-07-20 07:01:21 · 1655 阅读 · 0 评论 -
《机器学习》阅读心得——九、聚类
9.1 聚类任务 在“无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的分析提供基础。这种学习任务中应用最广的是“聚类”。 聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”。通过这样的划分,每个簇可能对应于一些潜在的概念(类别)。聚类算法对这些概念是未知的,聚类仅能自动形成簇结构,簇所对应的概原创 2017-08-21 22:51:46 · 1018 阅读 · 0 评论