2024年六大猜想:科技群星闪耀时

亿航智能获eVTOL合格证,预示低空通航新时代;智能车市场竞争激烈,出海成趋势;PC/手机复苏,AIPC/AIPhone创新;可穿戴AI和XR发展迅速,人形机器人进入量产元年;AI应用拓展至科技和制造领域。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

猜想一:eVTOL:低空通航成为现实

2023年10月,亿航智能获得中国民航局颁出的全球第一张eVTOL型号合格证,意味着eVTOL这一更高安全冗余、更低成本的低空通航方式即将成为现实。我们估算,eVTOL的整机销售及运营市场可达千亿人民币级别规模。

猜想二:智能车:20-30万价格带拥挤、出海加速、智能化普及

基于预期车型,我们测算2024年国内乘用车新能源渗透率或达45%,其中20-30万价格带的供给相对拥挤。激烈的竞争使得出海成为更多车企消化产能的方式。我们测算:自主品牌长安、吉利、长城、奇瑞等有望在2024年迎来车型大年。理想、小鹏、零跑等新势力亦有望录得销量大幅增长。比亚迪、特斯拉等明年或相对寡淡。

猜想三:AI PC/AI Phone:凛冬已过,拥抱创新之春

PC及手机增长望迎复苏,Canalys预计2024年全球PC/手机出货量增长8%/4%。建议关注大盘复苏及技术创新带来的:1)AI PC投资机会,如算力、存储、散热、品牌等,2)手机创新机会,如折叠屏、AI Phone、光学升级等。

猜想四:可穿戴:AI、XR推动可穿戴开启AI新时代

1)AI软件:AI赋能可穿戴产品更智能、应用场景更为拓宽,如AI PIN、AI Pendant、AI眼镜、AI耳机、AR/VR等。2)XR硬件:苹果、Meta MR新品迭出。Meta方面,新产品Quest 3推出、性能提升。苹果方面,Vision Pro开启“空间计算”时代,提升用户体验、推进生态打通。据IDC预计,2027年全球VR设备出货量望达2190 万台,2023-2027 CAGR为30.1%。

猜想五:人形机器人:进入量产元年,AI开启“具身智能”时代

量产规模端,据GGII预测,2030年全球人形机器人市场规模或达200亿美元,2026-2030 CAGR达78%。成本端,我们预计随着人形机器人起量,产业链成熟有望推动降本降价,马斯克展望Optimus达数百万台时量产成本或少于2万美元/台。软件端,我们预计AI大模型望推动人形机器人赛道开启“具身智能”时代。

猜想六:AI应用:从World Model到“AI4S”,在更广阔的天地遇见AI产业的星辰大海

2024年,我们不仅期待多模态模型在云端和端侧的应用落地,我们更期待其在科技和制造产业的突破:从Wayve和Tesla在自动驾驶领域的“World Model”,到谷歌Deepmind和微软在生物医学和材料科学的“AI For Science”,生成式AI将带我们开拓星辰大海。

L1、L2正则化

如果我们注意到模型在训练集上的表现明显优于模型在测试集上的表现,那么这就是模型过拟合了,也称为 high variance。

产生的过拟合的原因是对于给定的训练集数据来说,模型太复杂了。有几种可以减少过拟合的方法:

  • 收集更多的训练数据(通常可行性不大)

  • 通过正则化引入对模型复杂度的惩罚

  • 选择一个含有较少参数的简单模型

  • 减少数据的维度

假设模型的参数是向量 w,那么 L1 和 L2 正则化的定义如下。

图片

图片

L1 正则化通常会产生更稀疏的特征空间,大部分的特征对应的权重都是 0。

如果我们在处理高维且大多数特征都互不相关的数据集时,稀疏性就会十分有用,尤其是在训练数据集样本数比样本特征数还少时。此时 L1 正则化也可以被视为是一种特征选择工具,我们将在下一课学习特征选择。

我们在训练机器学习模型时的目标是使模型在训练集和测试集上的损失不断降低,损失是通过损失函数计算出来的。L1 正则化和 L2 正则化就是在损失函数后面再加上惩罚模型复杂度的因子,并且还附带一个取值在 [0.0, 1.0] 之前的参数 λ 控制惩罚力度。

图片

在 scikit-learn 库中,我们只需要指定 penalty='l1' 或 penalty='l2' 就可以选择使用 L1 还是 L2 正则化了。注意!solver 参数指定了优化算法,lbfgs 优化算法不支持 L1 正则化。

图片

我们用逻辑回归算法拟合了经过标准化的红酒数据集后发现,模型在训练集和测试集上的准确率都达到了 100%!

除此之外,你可能还注意到还有两个参数:

  • C 就是 λ 的倒数,默认值是 1.0

  • multi_class='ovr',这表示使用 one-versus-rest 方法将二分类模型应用到多分类

one-versus-rest(OVR)也称为 one-versus-all,是一种将二分类模型应用到多分类任务中的方法。以红酒数据集为例,这是数据集具有三种类别,那么就训练三个二分类器,每个二分类器都将其中一种类别作为正例,其他两种类别作为反例。最终预测时选择得分结果最高的分类器预测的正例对应的类别作为最终的预测类别。

我们可以看到有 3 个权重和对应的偏置(bias)。

图片

我们也能看到有几个特征对应的权重值为 0,所以 L1 正则化也能用作特征选择。我们可以增大正则化项系数 λ(减小参数 C)时会剔除更多的特征,当 C < 0.01(λ > 100)时,所有特征对应的权重都是 0。

图片

 降维(特征选择)

对于不支持正则化的模型来说,我们可以通过降低数据的特征维度来减小模型复杂度,从而避免过拟合。

有两种降维方法:

  • 特征选择(feature selection):从原始特征集中选择一部分特征子集。

  • 特征抽取(feature extraction):从现有的特征集中抽取信息形成新的特征空间。

顺序特征选择是一种贪心算法,它通过自动选择与问题最相关的特征子集来提升计算效率,剔除不相关的特征或噪声数据来降低模型泛化误差(这对那些不支持正则化的算法来说非常有用)。最终将原始特征从 d 维降低到 k 维。

经典的特征选择算法是顺序反向选择(Sequential Backward Selection,SBS),它旨在通过牺牲一点点模型性能来降低原始数据集的特征维度。在某种程度上,SBS 可以提升过拟合模型的预测性能。

SBS 算法很简单:不断从原始的特征空间中移除特征,直到剩余的特征数达到既定的阈值。

我们需要定义一个判别函数来确定每次移除哪个特征。比如我们可以以移除某个特征之前和之后模型的性能差异作为判别指标。

在 scikit-learn 中实现了两种顺序特征选择算法:顺序反向选择(Sequential Backward Selection,SBS)和顺序前向选择(Sequential Forward Selection,SFS)。

SFS是一种从底向上的方法,第一个特征选择单独最优的特征,第二个特征从其余所有特征中选择与第一个特征组合在一起后表现最优的特征,后面的每一个特征都选择与已经入选的特征组合最优的特征。

scikit-learn 默认使用的是 SFS,所以我们需要指定方向参数为 direction='forward'。

图片

我从 1 开始依次选择红酒数据集的全部 13 个特征,从下图可以看到当特征数量增加到 3 个之后,再增加特征数量模型在训练集上就不会再有明细的性能提升了。

图片

我们可以看是哪 3 个特征能产生这么好的贡献。

图片

通过以下结果可以看到,模型在测试集上仅仅损失了一点点性能。

图片

在实际工作中我们可以牺牲一点点泛化能力来节约大量的计算资源。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值