速通机器学习
文章平均质量分 92
北大博士后AI卢菁
腾讯公司 · 高级研究员 北京大学 · 计算机技术研究所博士后研究方向
展开
-
《速通机器学习》- 集成学习
(由于平台稿件格式问题,公式格式不能正确写上;如若读写困难可后台私信我要完整电子版)在现实生活中,我们每天都会面对各种抉择,例如根据商品的特征和价格决定是否购买。不同于逻辑回归把所有因素加权求和然后通过Sigmoid函数转换成概率进行决策,我们会依次判断各个特征是否满足预设条件,得到最终的决策结果。例如,在购物时,我们会依次判断价格、品牌、口碑等是否满足要求,从而决定是否购买。决策的流程,如图7-1所示。图7-1可以看到,决策过程组成了一棵树,这棵树就称为决策树。在决策树中,非叶子节点选择一个特征进行决策,原创 2024-01-31 17:05:16 · 997 阅读 · 0 评论 -
微积分的基本概念
在进行数据分析和机器学习的时候,我们往往需要知道一个因素的变化对结果造成的影响。例如:车费=3元×里程+起步价那么里程增加1千米,那么车费就会增加3元,因此里程对车费造成的影响就是 Δ=3,Δ 表示里程(自变量)对车费(因变量)的影响程度。我们可以把上面的分析用标准的数学语言进行描述。对应的函数为我们首先让 x 有一个微小的变动 Δx,它是一个无限接近于0的极小变量。Δy 则表示当 x 变为 x+Δx 时,y 对应的变化情况,即。原创 2024-01-30 14:50:44 · 849 阅读 · 1 评论 -
《速通机器学习》- 无监督学习
本书前面提到的各种模型,无论是回归还是分类,在训练阶段都有一个共同的前提条件,即需要有标注的训练样本。标注数据会告诉模型,“对这条数据,输入 x 后,我想要结果 y”。模型会根据要求,使用梯度下降法或其他求解方式,不断调整自身参数,使输出 y^' 尽可能接近标注 y。这类学习统称为有监督学习。标注 y 就是监督信号(也称为教师信号),用于告诉模型数据 x 所对应的正确类别 y。在企业中,标注数据的来源一般是人工标注,以及收集的用户反馈信息。不过,现实很“残忍”。原创 2024-01-29 15:16:14 · 648 阅读 · 0 评论 -
《速通机器学习》- 经典分类模型
针对缺失的特征,专门训练模型。例如,针对特征 x=〖[x_1,x_2,x_3]〗^T,穷举可能缺失的特征:x1=〖[x_1,x_2]〗^T,x2=〖[x_1,x_3]〗^T,x3=〖[x_2,x_3]〗^T,x4=[x_1],x5=[x_2],x6=[x_3],x7=〖[x_1,x_2,x_3]〗^T(共训练7个模型,各种特征缺失的情况都有对应的模型)。但是,其中有一个隐含的要求,即输入特征 x=〖[x_1,x_2,⋯,x_m]〗^T 是完备的,也就是说,特征 x_1~x_m 是已知的。原创 2024-01-25 18:42:54 · 896 阅读 · 0 评论 -
《速通机器学习》-因子分解模型
输入为 x=〖[x_1,x_2]〗^T,x_1=0 表示女性,x_1=1 表示男性,x_2=0 表示女鞋,x_2=1 表示男鞋,输出 y 表示用户的购买概率,特征分布如图4-1所示。同理,在计算 x_1,2 的系数 w_1,3 时,可以解耦成 v_1 和 v_3,v_3 和特征 x_3 有关。w_0+w^T x 对应于逻辑回归,∑_(h=1)^k▒(1/2 [(∑_(i=1)^m▒〖v_(i,h) x_i 〗)^2-∑_(i=1)^m▒(v_(i,h) x_i )^2 ]) 对应于新增的特征。原创 2024-01-24 18:56:39 · 1019 阅读 · 0 评论 -
《速通机器学习》-逻辑回归
线性回归是指特征 x 通过模型运算得到预测值 y^'。在理论上,y^' 的取值范围是 (-∞,+∞),即 y^' 可以是任何值,例如销量、价格、负债等。在回归任务中,有一类特殊场景值得注意,就是预测概率。概率可用于解决分类问题。在这类场景中,模型的输出是输入样本属于某个类别的概率。例如,输入的是用户消费习惯和商品特征等信息,输出的概率 p 表示用户是否会购买商品。再如,输入的是一幅图片,输出的概率 p 表示该图片是否包含人脸。原创 2024-01-23 16:00:43 · 875 阅读 · 0 评论 -
《速通机器学习》- 线性回归
在企业中,技术人员会将商品的价格、品牌等作为输入来预测商品的销量,甚至通过上市公司的财报、行业信息等来预测公司股票价格的变化。它们的共同点是通过输入来预测输出。在机器学习中,这类业务有一个专门的名字——回归(Regression)。回归是指通过大量已知数据发现输入 x 和输出 y 的内在关系,并对新的输入进行预测。发现内在关系后,就可以通过它来预测新的输入 x 所对应的输出 y^'。在本章中,我们用 y 表示真实的输出,用 y^' 表示预测的输出。在使用回归前,需要假设 y^' 和 x 之间的关系类型。原创 2024-01-23 15:59:08 · 982 阅读 · 0 评论 -
《速通机器学习》- 数据的量化和特征提取
机器学习是人工智能领域最活跃的分支之一,作为多学科交叉的重要工具,为计算机领域解决实际学习问题提供了理论支撑与应用算法。近年来,机器学习在互联网应用中崭露头角,计算机视觉、自然语言处理、推荐系统、搜索系统等积累了大量的数据和丰富的场景,促进了包括机器学习在内的诸学科的发展与繁荣。与此同时,机器学习的快速发展,也让我们切实领略了人工智能给人类生活带来各种改变的潜力。原创 2024-01-23 15:40:44 · 1303 阅读 · 0 评论