机器学习
文章平均质量分 91
机器学习简介及使用
man_world
这个作者很懒,什么都没留下…
展开
-
过拟合和欠拟合问题
一、训练集、测试集以及交叉验证集1、训练集(模型训练)2、测试集(模型评估)测试集的主要目的是正确评估分类器的性能,一般我们要确保测试集和交叉验证集的数据来自同一分布3、交叉验证集(模型选择) 不直接使用测试集的原因:确保我们选择出来的模型没有见过测试数据,即测试数据集没有参与模型选择的过程。 交叉验证的基本思想:重复的使用数据(许多实际应用中数据是不...原创 2018-04-23 15:50:31 · 2987 阅读 · 1 评论 -
自编码器简介
一、工作原理 自编码器一般包含编码器和解码器,编码阶段用于找到原始输入的高阶特征表示(更好的去分类),解码阶段用于产生和原始输入尺寸相同的原始数据表示,通过不断减小原始数据和解码后的原始数据表示来得到更好的编码后的高阶特征表示,最后利用此特征去做分类(SVM、Logistic Regression etc)# 解码器输出层神经元数量必须等于输入数据的 units 数量n_output_uni原创 2017-12-02 16:51:09 · 998 阅读 · 0 评论 -
使用sklearn做特征工程
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选转载 2017-09-06 21:23:05 · 480 阅读 · 0 评论 -
机器学习概述
一、机器学习的定义及研究内容定义:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。研究内容:从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或者无法观测的数据进行预测。二、机器学习的主要目的及不同机器学习算法的主要区别主要目的:设计和分析一些参数学习算法,让计算机从数据中获得一...原创 2016-05-16 14:07:40 · 2307 阅读 · 0 评论 -
SVM(Support Vector Machine)
一、SVM 简介及优缺点1. SVM 简介 通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上间隔最大的线性分类器,采用核方法后可用于非线性分类,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。SVM 大致可以分为以下几类: - 线性可分支持向量机 - hard margin maximize:线性可分 - 线性支持向量机(C参数)原创 2017-07-30 22:06:18 · 834 阅读 · 0 评论 -
聚类算法(KMeans&DBSCAN)
一、聚类定义聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小,即高类间聚,低类内聚。相似度怎么衡量呢? 相似度与距离成负相关 ,所以我们通常用样本间的距离来衡量其相似度。不同的场景,有不同的样本内容,但最终都会把样本表示成向量。 向量的距离怎么表示呢?(假设空间内有**两个n维(n>=2)向量**$(x_1原创 2017-03-30 11:39:48 · 10719 阅读 · 1 评论 -
机器学习中的各种距离计算公式
作者同类文章X•推荐一系列优秀的Android开发源码•[学习笔记--Printf()输出格式控制]•50个c/c++源代码网站•__int64 与long long 的区别更多 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲转载 2017-03-21 21:56:41 · 11355 阅读 · 0 评论 -
逻辑回归
一、逻辑回归(二元分类)1、决策函数(分类器)基本思想 建立输入x(特征)和输出y的映射关系,用于对未知或者无法观测的数据进行预测,即我们所需要的模型。表达式 hθ(x)=f(θTx),f(z)=11+e−z⇒P(y=1|x;θ)=hθ(x)=11+e−θTXh_\theta(x) = f(\theta^Tx), f(z) = \frac{1}{1+e^{-z}} \Rightarrow原创 2016-05-16 15:45:13 · 4295 阅读 · 1 评论 -
线性回归
一、单变量线性回归1、决策函数hθ(x)h_\theta(x)建立输入x(特征)和输出y的映射关系,用于对未知或者无法观测的数据进行预测,即我们所需要的模型。hθ(x)=θ0+θ1xh_\theta(x) = \theta_0 + \theta_1x 2、损失函数(MSE—Mean Squared Error)损失函数用于衡量决策函数的好坏,定量的计算错误的程度,选择出使损失函数值最小的模原创 2016-07-13 09:14:06 · 609 阅读 · 0 评论 -
机器学习中的一些概念
人工智能的分支学科–通过图灵测试数据/样本数据集/训练集/测试集/交叉验证集(超参数学习-early stop)判别函数正例/负例欠拟合/过拟合–正则化(结构风险最小化原则SRM)经验风险最小化原则(ERM)泛化错误原创 2016-07-13 09:08:59 · 653 阅读 · 0 评论