![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习笔记
腾阳
全网同名,欢迎关注,文章首发公号
展开
-
机器学习笔记1:机器学习的分类
一 分类概述 分类在数据挖掘中是一项很重要的任务。分类的目的是学会一个分类函数或分类模型(也经常称作为分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类别。 分类属于一种有指导的学习,模型的学习是在被告知每一个训练样本属于哪个类的“指导”下进行的。并随机的从样本群选取。每一个训练样本另一个特定的类标签与之相应,它不用于无指导的学习(聚类)。 二 分类器 ...转载 2018-05-26 14:05:24 · 625 阅读 · 0 评论 -
机器学习笔记2:数据建模全流程
数学建模标准流程包括商业理解、数据理解、数据清洗、建立模型、部署应用留个流程,具体如下:我们将数据建模标准流程转化为可执行可实施部分,那就是以下几个步骤:商业理解即对建模的项目需求和目标进行综合分析,对项目的可行性和数据条件进行评估,对业务进行梳理和深入了解,根据实际情况评估模型建立的价值。以下主要介绍用KNIME(国外比较流行的数据挖掘建模工具,类似于SPSS Modelar工具)工具建立模型的...转载 2018-05-26 14:17:03 · 13443 阅读 · 0 评论 -
机器学习笔记3:数据预处理的规范化,归一化,标准化,正则化
数据的规范化,归一化,标准化,正则化,这几个破词整得我头晕,首先这些词就没规范好,对数据做实验更晕,网上狂搜一阵后,发现数据归一化,标准化,正则化,还是有差别数据规范化 一种是针对数据库的解释 规范化理论把关系应满足的规范要求分为几级,满足最低要求的一级叫做第一范式(1NF),在第一范式的基础上提出了第二范式(2NF),在第二范式的基础上又提出了第三范式(3NF),以后又提出了BCNF范式...转载 2018-05-26 14:18:56 · 625 阅读 · 0 评论 -
机器学习笔记4:特征工程
一、特征工程概述 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。特征工程在机器学习中占有非常重要的作用,一般认为括特征构建、特征提取、特征...转载 2018-05-26 14:20:28 · 615 阅读 · 0 评论 -
机器学习笔记5:线性不可分问题
1. 什么是线性不可分 线性不可分简单来说就是你一个数据集不可以通过一个线性分类器(直线、平面)来实现分类。这样子的数据集在实际应用中是很常见的,例如:人脸图像、文本文档等。下面的几个数据都是线性不可分的:我们不可以使用一个直线或者一个直面把上面图像中的两类数据很好的划分。这就是线性不可分。2. 解决线性不可分的思想 现在流行的解决线性不可分的方法就是使用核函数(kernel)。这个技...转载 2018-05-26 14:33:00 · 19529 阅读 · 6 评论 -
机器学习笔记6:过拟合的常见原因,数学解释以及解决方法
概念为了得到一致假设而使假设变得过度严格称为过拟合。定义给定一个假设空间H,一个假设h属于H,如果存在其他的假设h’属于H,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’比h的错误率小,那么就说假设h过度拟合训练数据。 [1] 判断方法一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。出现这种现象的主...转载 2018-05-26 14:40:30 · 1353 阅读 · 0 评论