机器学习精通
文章平均质量分 91
本教程为零基础教学机器学习,从入门到实战项目精讲
共有九个实战项目练习
KNN的电影推荐系统、线性回归预测股票走势、LR广告点击率预估、朴素贝叶斯垃圾邮件过滤、决策树的用户流失分析预测、随机森林评估特征重要性、K-means图像分割、SVM人脸识别和lightgbm挑战Kaggle交易预测竞赛
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
꧁༺北海以北的等待༻꧂
一名已经摆烂了的程序员,如今在奋斗考研一线
展开
-
决策树模型与特征选择
决策树模型与特征选择决策树的形式树形结构规则集合条件概率决策树的学习特征选择信息量信息熵条件熵信息增益信息增益比决策树是一种基本的分类与回归方法,本章将重点介绍分类决策树的原理与应用。分类决策树既可以看作是一个规则集合,又可以看作是给定特征条件下类的条件概率分布。决策树的形式树形结构某银行使用如下决策树模型决定是否同意申请人贷款:每来一个贷款申请人,我们先看他是否有房,然后看他是否有工作,根据这两个特征决定要不要给他贷款。规则集合由上面的决策树可知,从根结点到叶子结点一共有三条路径,分别对应原创 2021-09-30 22:20:48 · 607 阅读 · 1 评论 -
文本分类基础
文本分类基础文本处理字符串的连接与翻转字符串的大小写转换字符串的替换与删除字符串的查找与分割正则表达式去除停用词文本表示单词表示词袋模型本章的项目实战是《基于朴素贝叶斯的垃圾邮件过滤》,属于文本分类项目。故这节课我们来学习一些文本分类的基础知识。通常来说,在使用一个算法进行文本分类之前,还需要做一些文本获取、文本处理和特征提取的工作。其中,文本获取的方式有第三方提供的语料库、通过爬虫技术获取等;文本处理主要是分词、去停用词、标准化等,特征提取则是将文本表示成特征向量的形式。文本的获取方法不是本课的重点,原创 2021-05-16 15:39:31 · 4195 阅读 · 60 评论 -
使用python实现朴素贝叶斯
使用python实现朴素贝叶斯算法回顾计算先验概率和条件概率计算条件独立的联合概率输出联合概率最大的类别代码分析算法的实现算法的使用算法的对比全部代码这节课我们将使用 python 的一些基本代码来实现朴素贝叶斯分类算法,然后利用我们自己写的算法在鸢尾花(iris)数据集上完成分类任务!有了上一节课的理论分析基础,这一节课的算法实现也就很简单了,下面我们先来梳理和回顾一下上节课所学的算法原理。算法回顾计算先验概率和条件概率lambda=0时为极大似然估计,lambda>0时为贝叶斯估计;这里原创 2021-05-15 19:07:00 · 3984 阅读 · 223 评论 -
朴素贝叶斯分类器
朴素贝叶斯分类器朴素贝叶斯算法原理联合概率边缘概率全概率公式贝叶斯公式贝叶斯分类器朴素贝叶斯分类器朴素贝叶斯参数估计极大似然估计贝叶斯估计朴素贝叶斯算法流程计算先验概率和条件概率计算条件独立的联合概率输出联合概率最大的类别经过前面几章的学习,我相信你对机器学习算法的认知和理解能力都应该上升一个层次了。本章你将会学习朴素贝叶斯算法和相关的实战内容,下面请和我一起进入正式的课程吧!朴素贝叶斯算法原理联合概率若P(X)表示事件X发生的概率;P(Y|X)表示事件X发生的条件下,事件Y发生的概率(简称条件概率原创 2021-05-13 14:43:27 · 2096 阅读 · 19 评论 -
特征工程与CTR预估
特征工程与CTR预估缺失值如何处理缺失值判断缺失值删除缺失值填充连续特征归一化连续特征离散化自定义分箱等距分箱等频分箱离散特征OneHot编码ID特征Embedding特征构造方法理解AUC指标课后练习点击率(Click-Through-Rate,简称CTR)是互联网广告中经常提到一个概念,通过机器学习算法预估广告点击率,然后将预测值较高的广告展现给用户,如果用户点击了这些CTR预估较高的广告,就可以为平台带来巨大的广告收入。LR曾是各大互联网公司在CTR预估上使用的主流模型。它有着可解释性强、易于并行原创 2021-05-09 10:38:52 · 5011 阅读 · 266 评论 -
使用 python 实现 Logistic 回归
使用 python 实现 Logistic 回归原理回顾预测函数代价函数参数更新代码分析算法的实现算法的使用算法的对比全部代码这节课我们将使用 numpy 实现逻辑回归算法,然后利用我们自己写的算法在乳腺癌数据集上进行癌症诊断!有了上一章线性回归的代码基础,这一章的算法实现也就非常简单了,下面我们先来回顾一下上节课所学的几个关键公式。原理回顾预测函数在上节课我们推导出了单个样本上逻辑回归的预测函数:由此我们可以写出批量样本上的预测函数表达式:有没有似曾相识的感觉呢?其实就是在第三章线性回归的原创 2021-04-25 21:11:18 · 1656 阅读 · 15 评论 -
Logistic 回归算法原理
Logistic 回归算法原理Sigmoid 函数概率决策分布函数函数求导逻辑回归模型概率预测函数对数几率回归条件概率分布极大似然估计似然函数对数似然对数损失梯度上升Logistic 回归,又名逻辑回归,它从线性回归发展而来,是一种广义的线性回归模型;该模型预测输出的是样本类别的条件概率分布,因而可以取概率值最大的类别作为分类结果,实质上是一个分类模型。Sigmoid 函数概率决策首先来看一个实际应用场景下的分类问题:某电商网站有着大量的商品,当用户看到这些商品时,有两个选择,一是点击,二是不点击。原创 2021-04-20 22:38:15 · 1698 阅读 · 14 评论 -
模型评估与模型选择
模型评估与模型选择导论模型评估回归任务的评估指标分类任务的评估指标过拟合的现象过拟合的原因过拟合的解决办法模型选择与调参正则化留出法交叉验证网格搜索项目实战阶段这节课我们来学习一下模型评估与选择的相关问题。在进入正式的学习之前,请你思考一下:我们为什么要做模型的评估与选择呢?导论在某个特定的数据场景下,我们事先并不知道什么样的模型可以近似刻画数据的规律。我们的模型选择可以有很多,比如:线性回归(n 元一次函数)、多项式回归(一元 n 次函数)等。即便是使用线性回归模型,在设置不同的超参数(如学习率、迭原创 2021-04-19 20:30:43 · 2183 阅读 · 20 评论 -
使用 python 实现 Logistic 回归
使用 python 实现 Logistic 回归原理回顾预测函数代价函数参数更新代码分析算法的实现算法的使用算法的对比全部代码这节课我们将使用 numpy 实现逻辑回归算法,然后利用我们自己写的算法在乳腺癌数据集上进行癌症诊断!有了上一章线性回归的代码基础,这一章的算法实现也就非常简单了,下面我们先来回顾一下上节课所学的几个关键公式。原理回顾预测函数在上节课中我们推导出了单个样本上逻辑回归的预测函数:由此我们可以写出批量样本上的预测函数表达式:有没有似曾相识的感觉呢?其实就是在第三章线性回归原创 2021-04-04 18:10:56 · 6800 阅读 · 221 评论 -
Logistic 回归算法原理
Logistic 回归算法原理Sigmoid 函数概率决策分布函数函数求导逻辑回归模型概率预测函数对数几率回归条件概率分布极大似然估计似然函数对数似然对数损失梯度上升Logistic 回归,又名逻辑回归,它从线性回归发展而来,是一种广义的线性回归模型;该模型预测输出的是样本类别的条件概率分布,因而可以取概率值最大的类别作为分类结果,实质上是一个分类模型。Sigmoid 函数概率决策首先来看一个实际应用场景下的分类问题:某电商网站有着大量的商品,当用户看到这些商品时,有两个选择,一是点击,二是不点击。原创 2021-04-03 23:29:17 · 2746 阅读 · 7 评论 -
模型评估与模型选择
@TOP()我们来学习一下模型评估与选择的相关问题。在进入正式的学习之前,请你思考一下:我们为什么要做模型的评估与选择呢?导论在某个特定的数据场景下,我们事先并不知道什么样的模型可以近似刻画数据的规律。我们的模型选择可以有很多,比如:线性回归(n 元一次函数)、多项式回归(一元 n 次函数)等。即便是使用线性回归模型,在设置不同的超参数(如学习率、迭代次数)进行训练时,得到的模型参数也会有差异。(模型参数不同,实际上就是模型本身的不同)既然可供选择的模型有很多,那必然就有好有坏,我们要从中挑选出最能原创 2021-04-03 23:08:29 · 4326 阅读 · 191 评论 -
使用python实现线性回归
使用python实现线性回归原理回顾预测函数经验风险参数更新代码分析算法的实现算法的使用算法的对比全部代码这节课我们会按照上节课所学的原理公式来实现线性回归算法,然后利用我们自己写的算法进行房价预测!下面我们先来回顾一下上节课所学的几个关键公式。原理回顾预测函数这个是矩阵形式的预测函数表达式,既可以预测单个样本,也可以预测多个样本,比较通用。 单个样本的预测即行矩阵 x 乘以列矩阵 w ,也可以看做是行向量 x 和列向量 w 的内积;多个样本(比如整个训练集样本)的预测是m x n的矩阵乘以n x原创 2021-03-23 19:20:05 · 1551 阅读 · 6 评论 -
线性回归算法原理
线性回归算法原理预测函数从一元到多元标量、向量、矩阵符号的定义标量展开式标量求和式向量内积式矩阵乘法式损失函数0-1损失绝对损失平方损失经验风险基本公式线性回归的经验风险梯度下降偏导数与梯度梯度下降的理解梯度下降的推导我们来学习线性回归的基本原理。我们之前说到分类与回归的区别是预测的 y 值是否连续。由此可知,线性回归属于监督学习中的回归算法,用来预测连续的 y 值。下面我们先来看一下线性回归的预测函数~预测函数从一元到多元我们在第 1 章学过的 f(x) = kx+b 是最简单的线性回归模型,模原创 2021-03-14 16:23:32 · 3901 阅读 · 299 评论 -
基于近邻的协同过滤算法
这节课我们来学习K近邻在推荐系统中的应用,你将完成本课程的第一个实战项目:基于KNN的电影推荐系统!为了使你能够顺利地完成实战内容,我们先了解一下推荐系统中的基础知识。基于近邻用户的协同过滤假定有一个场景:某个周日的下午,你感觉很无聊,然后从电脑上打开了一个视频网站,想看下最近有什么好看的电影。然而你发现网站上的热门电影基本都看过,其他的电影又太多,不知道该看什么。想使用搜索框去查一下,但是又不知道该搜什么关键词,这个时候你的内心很焦灼,总不能挨个去尝试吧,那时间成本也太大了…仔细想想还是有办法的,那原创 2021-03-12 16:03:35 · 4836 阅读 · 213 评论 -
基于KNN的电影题材分类
我们主要来实践 KNN 分类算法的案例:基于KNN的电影题材分类代码分析导入工具包import numpy as npimport pandas as pdfrom collections import Counternumpy 和 pandas 是 python 中常见的两个库: numpy 可以用来存储和处理大型矩阵,比 python 自身的嵌套列表结构要高效的多;pandas 是基于 numpy 的一种工具,该工具是为了解决数据分析任务而创建的;Counter 用来统计序列中不同元素的个原创 2021-03-12 15:04:51 · 5655 阅读 · 268 评论 -
K近邻算法原理
K近邻算法原理基本思想欧氏距离算法流程影响因素咱们来一起学习一下K近邻(k-nearest neighbors,简称KNN)算法的基本原理~基本思想首先来看这样一幅图:我们根据涂色样本点和未涂色样本点 X 的距离给涂色样本点编号1-6,即:1号样本点距离X最近,其余次之。那么问题来了:样本点 X 应该属于哪种颜色呢?是蓝色还是绿色?其实,我们可以根据 X 的相邻样本点来判定。例如,和 X 距离最近的三个样本点中绿色占多数,那么 X 就属于为绿色;和 X 距离最近的 5 个样本点中蓝色占多数,那原创 2021-03-12 14:55:10 · 4884 阅读 · 447 评论 -
利用线性回归预测波士顿房价
利用线性回归预测波士顿房价原理简介代码分析导入相关的工具包加载数据集模型训练和预测预测结果可视化全部代码我们现在开始学习这门课程的第一个AI程序:利用线性回归预测波士顿房价。原理简介如果你之前没有听说过线性回归这个概念,那么在这节课中,你只需要把它当做是一次线性函数 y = kx+b 就可以了。我们要做的就是利用已有数据,去学习得到这条直线,有了这条直线,则对于横坐标 x 的任意取值,我们都可以找到直线上对应的 y 值,也就是模型的预测值。图中的直线 y = kx+b 是第 1 节课中提到的体重预原创 2021-03-12 14:40:26 · 10297 阅读 · 435 评论 -
机器学习的基本概念
监督与无监督的概念机器学习主要包括监督学习、无监督学习和强化学习。由于我们的课程是面向机器学习入门的同学,所以我主要介绍监督和无监督学习的部分,强化学习的部分不做介绍。首先,什么是监督学习呢?它和无监督学习的区别又是什么呢?监督学习是指从标注数据中学习预测模型的机器学习问题。相反的,无监督学习是指从无标注数据中学习预测模型的机器学习问题。由此可知:监督学习和无监督学习的区别在于数据是否有标注,那么数据一般长什么样呢?标注指的又是什么呢?样本、特征、标记为了让你对数据有一个直观的印象,我们先来看原创 2021-03-12 14:24:53 · 4272 阅读 · 234 评论 -
开启人工智能的大门
人工智能你一定对人工智能(Artificial Intelligence,简称 AI)这个词很熟悉了吧,那么学术上是如何定义人工智能的呢?美国麻省理工学院温斯顿教授认为:“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”由此可见,人工智能的发展将会彻底改变人类的生产和生活方式,随之而来的是社会对人才需求的改变,即:就业趋势会逐渐偏向 AI 领域。事实上,人工智能已经在各行各业的发展中扮演着重要的角色,并且它的地位还在不断地提升。例如:人脸识别、自动驾驶、智能客服、短视频推荐、金融风控原创 2021-03-12 13:49:38 · 2645 阅读 · 242 评论