机器学习
文章平均质量分 63
Never-Giveup
这个作者很懒,什么都没留下…
展开
-
理解机器学习和深度学习的基本概念
什么是机器学习机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。 机器学习虽然发展了几十年,但还是存在很多没有解决的问题: 例如图像识别、语音识别、自然语言理解、天气预测、基因表达、内容推荐等等。目前我们通过机器学习去解决这些问题的思路都是这样的(以视觉感知为例子): 从...原创 2018-07-24 00:24:30 · 842 阅读 · 0 评论 -
详解scikit-learn计算ROC/AUC曲线
ROC和AUC定义ROC全称是“受试者工作特征”(Receiver Operating Characteristic)。ROC曲线的面积就是AUC(Area Under the Curve)。AUC用于衡量“二分类问题”机器学习算法性能(泛化能力)。Python中sklearn直接提供了用于计算ROC的函数,下面就把函数背后的计算过程详细讲一下。计算ROC需要知道的关键概念首先,解释几个二...原创 2019-01-29 17:53:53 · 6804 阅读 · 3 评论 -
特征处理之使数据分布逼近正态分布
前言在机器学习和深度学习中,我们经常要对输入的数据做归一化或者在隐藏层使用Batch-Normlization(BN)操作,将数据范围缩放到[0,1]或者[-1, 1]之间,主要作用:可以加快神经网络训练速度,防止过拟合。然而无论做归一化还是BN处理,虽然将数据的均值变为0,方差变为1,但是数据的整体分布并不一定服从标准的正态分布(实际数据大部分时候都不会是),做归一化和BN时,我们求出来的均值...原创 2019-01-23 22:27:21 · 21565 阅读 · 4 评论 -
损失函数, 成本函数, 目标函数的区别
机器学习中经常会碰到“损失函数”,“成本函数”, 和“目标函数”。许多初学者会被这些概念搞晕。但是概念不能混。原创 2018-11-13 20:54:41 · 8286 阅读 · 0 评论 -
机器学习之类别不平衡问题
类别不平衡问题就是指分类任务中不同类别的训练样例数据差别很大的情况。在现实的分类任务中,我们经常遇到类别不平衡问题,例如在通过拆分法解决多分类问题时,即使原问题中不同类别的训练样例数目相当,在用OvR(一对剩余one to rest)和MvM(多对多)策略产生的二分类任务仍可能出现类别不平衡现象,因此有必要了解类别不平衡问题的解决方法。1. “再缩放”策略从线性分类器的角度讨论很容易理解,在我...原创 2018-10-07 22:52:15 · 1206 阅读 · 0 评论 -
机器学习之超参数调优
对于很多算法工程师来说,超参数调优是件非常头疼的事,这项工作比较玄学。除了根据经验设定所谓的“合理值”之外,一般很难找到合理的方法去寻找超参数的最优值。而与此同时,超参数对于模型效果的影响又至关重要。那么有木有一些可行的办法进行超参数调优呢?超参数调优的方法为了进行超参数调优,我们一般会采用网格搜索、随机搜索以及贝叶斯等算法。在具体介绍算法之前,需要明确超参数搜索算法一般包括哪几个要素。一是目...原创 2018-10-07 22:11:27 · 5945 阅读 · 0 评论 -
周志华《机器学习》笔记—第一章
1. 机器学习的概念机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改变系统自身的性能。在计算机系统中,“经验”通常以“数据” 的形式存在。因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”(learning algorithm)。2. 样本空间属性或特征张成的空间称为“属性空间”,“样本空间”或“输入空间”。3. 泛化能力学习到...原创 2018-10-06 20:38:56 · 1101 阅读 · 0 评论 -
机器学习中L1和L2正则化的一些阐述
L1和L2正则化效果的区别一直想不明白:为什么L1正则化使模型稀疏,L2正则化在防止过拟合方面效果明显。L1和L2正则化的区别和效果也是面试经常考到的问题。所以通过查阅一些资料,对这两个正则化的效果做了一些简单解释。 **答案:**L1正则化是部分特征的权重为零,所以最后输入的特征减少了,而L2正则化则是使部分特征(对预测结果影响不大的特征)的权重趋近0而不为0,降低了这些特征对结果的影响但...原创 2018-09-14 23:19:27 · 238 阅读 · 0 评论 -
机器学习的评价指标:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线等
在介绍指标前必须先了解“混淆矩阵”:混淆矩阵True Positive(真正,TP):将正类预测为正类数True Negative(真负,TN):将负类预测为负类数False Positive(假正,FP):将负类预测为正类数误报 (Type I error)False Negative(假负,FN):将正类预测为负类数→漏报 (Type II error) 1、准确...原创 2018-09-14 22:07:41 · 12059 阅读 · 0 评论 -
机器学习之主成分分析(PCA)
参考https://www.cnblogs.com/lzllovesyl/p/5235137.htmlhttps://www.cnblogs.com/lzllovesyl/p/5243370.html原创 2018-09-15 21:28:29 · 841 阅读 · 0 评论 -
机器学习中的模型评估方法
在机器学习中,我们通常把样本分为训练集和测试集,训练集用于训练模型,测试集用于评估模型。在样本划分和模型验证的过程中,存在着不同的抽样方法和验证方法。 1. Holdout检验Holdout检验是最简单也是最直接的验证方法,它将原始的样本集合随机划分成训练集和验证集两部分。比方说,对于一个点击率的预测模型,我们把样本按照70%~30%的比例分成两部分,70%的样本用于模型训练,30%的样本...原创 2018-09-15 20:55:10 · 890 阅读 · 0 评论 -
神经网络中的稀疏编码和自动编码了解一下
https://blog.csdn.net/zouxy09/article/details/8775518原创 2018-08-25 16:53:10 · 2208 阅读 · 0 评论 -
特征值和奇异值的关系
特征值分解和奇异值分解(SVD)在主成分分析(PCA)和机器学习领域都有广泛的应用。PCA的实现由两种方法,一种是特征值分解,另一种是奇异值分解,特征值分解和奇异值分解的目的是一样的,都是提取出一个矩阵最重要的特性。特征值线性代数中对特征值和特征向量的定义:设A是n阶方阵,如果存在 λ 和n维非零向量x,使 Ax=λxAx=λxAx=\lambda x,则 λ 称为方阵A的一个特征值...原创 2018-08-25 16:40:40 · 29943 阅读 · 5 评论 -
scikit-learn的基本用法——模型保存与加载
import picklefrom sklearn.svm import SVCfrom sklearn import datasets# 定义分类器svm = SVC()# 加载iris数据集iris = datasets.load_iris()# 读取特征X = iris.data# 读取分类标签y = iris.target# 训练模型svm.fit(X, y)...原创 2019-02-13 10:44:54 · 877 阅读 · 0 评论