![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 90
schdut
记录学习笔记,欢迎交流讨论。
展开
-
艰难的秋招 机器学习笔记 评价指标等各种问题
文章目录评价指标分类分类准确率查准率,查全率,F1-scoreROC,AUC回归平均平方误差平均绝对误差各种问题泛化误差,偏差,方差,噪声欠拟合,过拟合如何解决欠拟合,过拟合如何解决类别不平衡问题评价指标分类分类准确率分类准确(错误)率是分类正确(错误)的个数占所有样本的比例。查准率,查全率,F1-score实际为正例实际为负例预测为正例(positive)TP (True Positive)FP (False Positive)预测为负例(negative)F原创 2021-02-02 16:32:03 · 191 阅读 · 0 评论 -
艰难的秋招 机器学习笔记 集成学习、随机森林、Adaboost、提升树、GBDT、XGBoost
文章目录决策树介绍具体算法剪枝集成学习介绍Bagging和Boosting的区别随机森林Adaboost介绍描述提升树介绍描述GBDT介绍描述如何做多分类损失函数分类回归XGBoost介绍前提推导优点参数决策树介绍决策树是一种基于规则的算法。决策树学习的损失函数通常是正则化的极大似然函数。决策树学习的策略是以损失函数为目标函数的最小化。决策树学习算法通常是递归地选择最优特征,并根据该特征对训练数据进行分割。这一过程对应着特征空间的划分,也对应着决策树的构建。决策树学习算法主要包括三个过程:特征选择原创 2021-02-02 16:21:03 · 286 阅读 · 0 评论 -
艰难的秋招 机器学习笔记 逻辑回归、FM、支持向量机、决策树
写在前面:本来找工作的目标是算法工程师,直到秋招之前也在准备算法,但是渐渐发现找算法有点困难,既没有大厂实习,也没有厉害的论文,所以只好转向开发了。复习机器学习的时候写了一点笔记,当然参考了网上一些文章,因为之后也不会找算法了,就把算法的笔记先放出来,供有缘人参考。如果有写得不好的地方,欢迎批评指正!因为是用有道云笔记写的,markdown的语法不太一样,所以就直接分享有道云笔记了!笔记在这里...原创 2020-08-17 13:53:01 · 232 阅读 · 0 评论 -
对比XGBoost.cv和sklearn中的交叉验证
写在前面:已经很久很久很久没有发博客了,有点愧疚还有点难过,哎。。。XGBoost有两种接口:原生接口,比如xgboost.train,xgboost.cvsklearn接口,比如xgboost.XGBClassifier,xgboost.XGBRegressor两种接口有些许不同,比如原生接口的学习率参数是eta,sklearn接口的是learning_rate,原生接口要在tr...原创 2020-03-25 20:41:34 · 8829 阅读 · 3 评论 -
Coursera机器学习笔记 第3周 第七章 正则化
第七章 正则化(Regularization)第1节 解决过拟合的问题(Solving the Problem of Overfitting)7.1 过拟合的问题 参考视频 : 7 - 1 - The Problem of Overfitting (10 min).mkv我们目前学习了线性回归和逻辑回归算法,它们能有效地解决问题,但将其应用到特定的机器学习应用是,会遇...原创 2018-02-24 16:54:07 · 387 阅读 · 0 评论 -
Coursera机器学习笔记 第4周 第八章 神经网络:表述(一)
第八章 神经网络:表述(一)第1节 动机(Motivations)8.1 非线性假设 参考视频:8 - 1 - Non-linear Hypotheses (10 min).mkv前面我们学习了逻辑回归,它们可以很好的解决一些线性的分类问题。但是对于非线性问题,它们很难画出分类边界线。如下图。 如果要实现非线性模型,需要增加模型复杂度(增加特征组合和特征多次项)...原创 2018-03-12 08:35:18 · 538 阅读 · 0 评论 -
Coursera机器学习笔记 第1周 第二章 单变量线性回归(二)
第二章 单变量线性回归(二)第2节 参数学习(Parameter Learning)2.5 梯度下降 参考视频 : 2 - 5 - Gradient Descent (11 min).mkv梯度下降(batch gradient descent)是一个用来求函数最小值的算法,可以通过它来求出代价函数J(θ0,θ1)J(θ0,θ1)J(\theta_{0},\theta...原创 2017-10-08 19:35:00 · 358 阅读 · 0 评论 -
《机器学习实战》笔记(第四部分 其他工具)
采用书籍《机器学习实战》,人民邮电出版社,2013年6月第1版。在线资料:英文资料,中文资料,后者中可以找到源代码和勘误。关于机器学习实战的博客已经有很多,所以本博文仅将书中的知识点进行整理和扩展。第四部分 其他工具第13章 利用PCA简化数据降维技术:数据数量大,特征多,减少数据的特征进行简化,可以使得数据更易使用,降低很多算法的计算开销,去除噪声,使得结果易懂。我...原创 2018-02-23 19:42:44 · 197 阅读 · 0 评论 -
《机器学习实战》笔记(第三部分 无监督学习)
采用书籍《机器学习实战》,人民邮电出版社,2013年6月第1版。在线资料:英文资料,中文资料,后者中可以找到源代码和勘误。关于机器学习实战的博客已经有很多,所以本博文仅将书中的知识点进行整理和扩展。第三部分 无监督学习第10章 利用K-均值聚类算法对未标注数据分组聚类是一种无监督学习,不知道数据的类标签,它将相似的对象归到同一个簇中,将不相似的对象归到不同簇。簇内的对...原创 2018-02-23 17:25:26 · 317 阅读 · 0 评论 -
Coursera机器学习笔记 第4周 第八章 神经网络:表述(二)
推荐资料:神经网络浅讲:从神经元到深度学习第八章 神经网络:表述(二)第3节 应用(Applications)8.5 示例和直观理解1 参考视频 : 8 - 5 - Examples and Intuitions I (7 min).mkv从本质上讲,神经网络能够通过学习得出其自身的一系列特征。在普通的逻辑回归中,我们被限制为使用数据中的原始特征x1,x2,…,x...原创 2018-03-13 15:14:41 · 265 阅读 · 0 评论 -
Coursera机器学习笔记 第5周 第九章 神经网络 相关数学公式证明
神经网络 相关数学公式证明0. Coursera机器学习神经网络的其他笔记:Coursera机器学习笔记 第4周 第八章 神经网络:表述(一)Coursera机器学习笔记 第4周 第八章 神经网络:表述(二)Coursera机器学习笔记 第5周 第九章 神经网络:学习(一)Coursera机器学习笔记 第5周 第九章 神经网络:学习(二)1. 神经网络的回顾 我...原创 2018-03-29 19:23:32 · 544 阅读 · 1 评论 -
Coursera机器学习笔记 第5周 第九章 神经网络:学习(一)
第九章 神经网络:学习(Neural Networks: Learning)(一)第1节 代价函数和反向传播(Cost Function and Backpropagation)9.1 代价函数 参考视频 : 9 - 1 - Cost Function (7 min).mkv首先引入一些便于讨论的标记。假设神经网络的训练样本有mmm个,每个样本包含输入xxx和类标签y...原创 2018-03-25 16:51:20 · 827 阅读 · 1 评论 -
Coursera机器学习笔记 第5周 第九章 神经网络:学习(二)
第九章 神经网络:学习(二)第2节 反向传播实践(Backpropagation in practice)9.4 实现注意:展开参数 参考视频:9 - 4 - Implementation Note_ Unrolling Parameters (8 min).mkv为了在高级优化算法的使用需要,我们需要把参数从矩阵转化为向量。以下为高级优化代码,functio...原创 2018-03-28 19:27:39 · 314 阅读 · 2 评论 -
Coursera机器学习笔记 第6周 第十章 应用机器学习的建议
第十章 应用机器学习的建议第1节 评估一个学习算法(Evaluating a Learning Algorithm)10.1 决定下一步做什么 参考视频:10 - 1 - Deciding What to Try Next (6 min).mkv到目前为止,我们已经介绍了许多不同的算法,你会发现自己已经了解了许多机器学习方面的东西。然而在懂机器学习的人当中,不同人...原创 2018-04-11 15:02:37 · 484 阅读 · 0 评论 -
Coursera机器学习笔记 第6周 第十一章 机器学习系统的设计
第十一章 机器学习系统的设计第1节 建立一个垃圾邮件分类器(Building a Spam Classifier)11.1 优先考虑要做什么 参考视频: 11 - 1 - Prioritizing What to Work On (10 min).mkv在接下来的视频中,我将谈到机器学习系统的设计。我将会谈及在设计机器学习系统时,你将遇到的主要问题,同时会给出一些建议...原创 2018-04-13 15:26:34 · 436 阅读 · 0 评论 -
Matlab中有用的机器学习文档
用Matlab学习机器学习是一个很有趣的体验,文档丰富,函数完整,很容易上手。一、监督学习1. 监督学习工作流程和算法文档链接:Supervised Learning Workflow and Algorithms。该文档介绍了:监督学习是什么?监督学习的步骤包括: 准备数据(Prepare Data)选择算法(Choose an Algorithm)拟合模型(F...原创 2018-06-10 09:29:23 · 8998 阅读 · 0 评论 -
一些用于聚类和分类问题的数据集
毕业设计时简单研究了聚类和分类问题,整理了一下用到的数据集,有需要的可以参考一下。。。聚类数据集信息 序号 数据集 记录数 特征数 类别 简单分布 是否有overlap 来源 1 iris 150 4 3 50/50/50 No UCI 2 wine 178 13 3 59/71/48 ...原创 2018-08-13 15:02:57 · 64561 阅读 · 20 评论 -
《机器学习实战》笔记(关于本书)
采用书籍《机器学习实战》,人民邮电出版社,2013年6月第1版。关于机器学习实战的博客已经有很多,所以本博文仅将书中的知识点进行整理和扩展。 关于本书本书讲述重要的机器学习算法,尽量减少讨论数学理论,更多地讨论如何编码实现机器学习算法,介绍那些使用这些算法的应用和工具,以及如何在实际环境中使用它们。读者对象这本书适合有数据需要处理的读者,也适合于想要获得并理解数据的...原创 2018-02-22 11:08:36 · 1267 阅读 · 0 评论 -
《机器学习实战》笔记(第二部分 利用回归预测数值型数据)
采用书籍《机器学习实战》,人民邮电出版社,2013年6月第1版。在线资料:英文资料,中文资料,后者中可以找到源代码和勘误。关于机器学习实战的博客已经有很多,所以本博文仅将书中的知识点进行整理和扩展。第二部分 利用回归预测数值型数据第8章 预测数值型数据:回归分类预测的目标变量是标称型数据,而本章的回归预测的目标变量是连续型数据。回归的目的是预测数值型的目标值,方法是训...原创 2018-02-23 13:07:56 · 745 阅读 · 0 评论 -
Coursera机器学习笔记 第1周 第一章 引言
本文内容参考自中国海洋大学2014级博士生黄海广的机器学习笔记,同时加入了自己的学习和思考。原因是PDF版本的笔记有些冗长,阅读没有记录,故进行整理形成博客。第一章 引言(Introduction)第1节 欢迎(Welcome)欢迎来到机器学习!第2节 引言(Introduction)1.1 欢迎 参考视频 : 1 - 1 - Welcome (...原创 2017-10-08 14:48:24 · 775 阅读 · 0 评论 -
Coursera机器学习笔记 第1周 第二章 单变量线性回归(一)
第二章 单变量线性回归(Linear Regression with One Variable)(一)第1节 模型和代价函数(Model and Cost Function)2.1 模型表示 参考视频 : 2 - 1 - Model Representation (8 min).mkv我们学习的第一个算法是线性回归算法。你将会了解这个算法的概况,以及监督学习过程完整的...原创 2017-10-08 15:56:36 · 474 阅读 · 0 评论 -
Coursera机器学习笔记 第1周 第三章 线性代数回顾
第三章 线性代数回顾(Linear Algebra Review)第1节 线性代数回顾(Linear Algebra Review)3.1 矩阵和向量 参考视频:3 - 1 - Matrices and Vectors (9 min).mkv1.这是一个4×24×2 4 \times2 矩阵: A=⎡⎣⎢⎢⎢1402137194914719182114371448⎤...原创 2017-10-13 18:40:39 · 652 阅读 · 0 评论 -
Coursera机器学习笔记——学习资源和课程概述
本文内容参考自中国海洋大学2014级博士生黄海广的机器学习笔记,同时加入了自己的学习和思考。原因是PDF版本的笔记有些冗长,阅读没有记录,故进行整理形成博客。学习资料链接:斯坦福大学机器学习个人笔记完整版(附所有视频和字幕)课程学习网站:Machine learning - CourseraMachine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为,以...原创 2017-09-24 10:38:02 · 714 阅读 · 0 评论 -
如何理解最大似然估计?
转载自:最大似然估计总结笔记,小编辛辛苦苦对原文进行了文字和公式的润色。如何理解最大似然估计?1、作用在已知实验结果的情况下,用来估计满足这些样本分布的参数,把可能性最大的那个参数θ\theta作为真实θ^\hat\theta的参数估计。说的通俗一点:最大似然估计就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。例如:一个麻袋里有白球与黑球,但是我不知道它们之间的比例,那我就有转载 2017-11-07 19:41:25 · 9481 阅读 · 3 评论 -
如何使用UCI数据集
UCI数据集是一个常用的机器学习标准测试数据集。 地址: http://www.ics.uci.edu/~mlearn以Iris鸢尾花数据集为例:1.Iris数据集在右边方框【Most Popular Data Sets (hits since 2007)】中第一个。 2.点击Iris数据集,进入该数据集详情页面: 上面是这个数据集的详细信息:多变量数据集,没有缺失值,...原创 2017-10-29 14:05:56 · 50436 阅读 · 15 评论 -
两个常用的数据标准化方法及Matlab和Python实现
参考:数据归一化和两种常用的归一化方法,博主对原文进行了润色并添加了Matlab实现。数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果。为了消除指标(特征)之间的量纲影响,数据集需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是两...原创 2017-12-12 19:13:12 · 32633 阅读 · 13 评论 -
如何将UCI数据集转换成Matlab可用格式
在开始学习机器学习和数据挖掘的过程中,我的导师让我看了一篇关于聚类的论文 A testing based extraction algorithm for identifying significant communities in networks.pdf,该论文提出了一个基于假设检验的算法ESSC。导师说等我看明白之后就可以编程实现,我看了不到两周,然后试着用 Matlab 实现这个算法。在实现原创 2017-12-10 20:08:18 · 5949 阅读 · 0 评论 -
Coursera机器学习机器学习笔记 为什么线性回归中代价函数除以2m?
转载:http://blog.csdn.net/u010106759/article/details/50380442线性回归中代价函数为: J=12m∑i=1m(hθ(x(i))−y(i))2J=12m∑i=1m(hθ(x(i))−y(i))2 J = \frac{1}{2m} \sum_{i=1}^{m} {\left({h}_{\theta }({x}^{\left(i \rig...转载 2017-09-06 21:21:03 · 5841 阅读 · 2 评论 -
Coursera机器学习笔记 第2周 第四章 多变量线性回归
第四章 多变量线性回归(Linear Regression with Multiple Variables)第1节 环境安装说明(Environment Setup Instructions)介绍了Matlab/Octave的安装。第2节 多元线性回归(Multivariate Linear Regression)4.1 多维特征 参考视频: 4 - 1 - M...原创 2017-10-16 10:34:07 · 381 阅读 · 0 评论 -
Coursera机器学习笔记 第3周 第六章 逻辑回归(一)
第六章 逻辑回归(Logistic Regression)(一)第1节 分类和表示(Classification and Representation)6.1 分类问题 参考视频:6 - 1 - Classification (8 min).mkv在分类问题中,你要预测的变量y是离散的,我们将学习一种叫做逻辑回归(Logistic Regression)的算法,这是目前最...原创 2017-11-06 20:40:51 · 336 阅读 · 0 评论 -
Coursera视频无法播放
解决方法:1.进入C:\Windows\System32\drivers\etc,找到 hosts 文件 2.用记事本或类似软件打开,在文件末尾空一行输入如下内容: ##Couresa 解决DNS污染52.84.246.90 d3c33hcgiwev3.cloudfront.net52.84.246.252 d3c33hcgiwev3.cloudfront.net...原创 2017-09-17 14:53:33 · 483 阅读 · 0 评论 -
Coursera机器学习笔记 第2周 第五章 Octave/Matlab教程(二)
第五章 Octave教程(二)5.4 绘图数据 参考视频 : 5 - 4 - Plotting Data (10 min).mkvOctave可以绘制图表来可视化数据。例1PS1('>> ');t=[0:0.01:0.98];y1=sin(2*pi*4*t);plot(t,y1); // 绘制正弦函数y2=cos(2*pi*4*t);plot(t...原创 2017-10-22 18:11:56 · 901 阅读 · 0 评论 -
Coursera机器学习笔记 第2周 第五章 Octave/Matlab教程(一)
第五章 Octave/Matlab教程(Octave/Matlab Tutorial)第1节 Octave/Matlab教程(Octave/Matlab Tutorial)5.1 基本操作 参考视频 : 5 - 1 - Basic Operations (14 min).mkv1.预备知识点:Octave是一种编程语言,类似Matlab。它是一种高级语言,很容易...原创 2017-10-22 15:28:01 · 1990 阅读 · 2 评论 -
Coursera机器学习笔记 第3周 第六章 逻辑回归(二)
第六章 逻辑回归(二)第2节 逻辑回归模型(Logistic Regression Model)6.4 代价函数 参考视频: 6 - 4 - Cost Function (11 min).mkv我们将要介绍如何拟合逻辑回归模型中的参数θθ\theta。具体来说,我要定义用来拟合参数的优化目标或者叫代价函数,这便是监督学习问题中的逻辑回归模型的拟合问题。对于线性回归...原创 2017-11-09 09:50:47 · 345 阅读 · 0 评论 -
《机器学习实战》笔记(第一部分 分类)
采用书籍《机器学习实战》,人民邮电出版社,2013年6月第1版。在线资料:英文资料,中文资料,后者中可以找到源代码和勘误。关于机器学习实战的博客已经有很多,所以本博文仅将书中的知识点进行整理和扩展。第一部分 分类第1章 机器学习基础机器学习横跨计算机科学,工程技术和统计学等多个学科,需要多学科的专业知识。过去的工作基本上都有明确的定义,类似于把物品从A处搬到B处或者在...原创 2018-02-22 10:23:27 · 553 阅读 · 0 评论