![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
bboysky45
一个没有感情的量化研究员
展开
-
六个步骤学会简单的数据清洗
六个步骤搞懂数据清洗原创 2023-07-29 16:30:33 · 1195 阅读 · 0 评论 -
初识分类问题
分类的目的就是找到这条线,用一条线将图中白色的点和黑色的点分开,只要找到这条线,就可以根据点在线的哪一边来判断图像是横向还是纵向的了。将图像数据转换为坐标: 白色的点是纵向图像,黑色的点是横向图像。根据尺寸把图像分类为纵向图像和横向图像,是二分类问题。原创 2023-06-12 11:33:49 · 380 阅读 · 0 评论 -
随机梯度下降法
梯度下降法更新1次参数的时间,随机梯度下降法可以更新n次。此外,随机梯度下降法由于训练数据是随机选择的,更新参数时使用的又是选择数据时的梯度,所以不容易陷入目标函数的局部最优解。这是介于最速下降法和随机梯度下降法之间的方法,不管是随机梯度下降法还是小批量梯度下降法,我们都必须考虑学习率η。当然,可以随机选择1个训练数据的做法,也肯定有随机选择m个训练数据来更新参数的做法。这个表达式中的k就是被随机选中的数据索引。比如以下形状的函数,最优解取决于初始值的选取。设随机选择m个训练数据的索引的集合为K,原创 2023-05-30 18:18:44 · 778 阅读 · 0 评论 -
多变量->多重回归
同样,求参数θ0, ···, θ3,也是分别求目标函数对θ0, ···, θ3的偏微分。之前的案例是根据广告费来预测点击量,但是,实际中要解决的很多问题是变量超过2个的复杂问题,也就是说,会有多个自变量X。举个例子:决定点击量的除了广告费之外,还有广告的展示位置和广告版面的大小等多个要素。像这样包含了多个变量的回归称为。原创 2023-05-30 17:48:39 · 116 阅读 · 0 评论 -
多项式回归
可以看出,即使增加参数,比如有θ3、θ4等,依然可以用同样的方法求出它们的更新表达式。在上一个案例中,使用了一次函数来拟合了广告费与点击量的关系,但如图,用曲线来拟合数据点或许更好。像这样增加函数中多项式的次数,然后再使用函数的分析方法被称为。原创 2023-05-30 14:17:19 · 39 阅读 · 0 评论 -
回归问题里的数学
投入的广告费越多,广告的点击量就越高,进而带来访问数的增加,不过点击量经常变化,投入同样的广告费未必能带来同样的点击量。根据广告费和实际点击量的对应关系数据,可以将两个变量用下面的图展示出来。如上图,如果花了200日元的广告费,广告的点击量大概是500次左右。这就是机器学习,从数据中进行学习,然后给出预测值。原创 2023-05-30 11:49:26 · 447 阅读 · 1 评论 -
机器学习算法
回归是处理连续数据时使用的方法,如时间序列数据。股价就是时间序列数据的一个例子,身高和体重本身就是连续的数据,假如记录下每天的身高和体重,那么得到的数据就是类似于股价的时间序列数据了。从这样的数据中学习它的趋势,求出“明天的股价会变为多少”“今后的趋势会怎样”的方法就是回归算法。当然了,股价的变动不只受过去股价的影响,所以光靠这个信息并不能很好地预测出来。原创 2023-05-29 16:08:07 · 540 阅读 · 0 评论 -
机器学习概述
无论是过去还是现在,计算机都特别擅长处理重复的任务。所以计算机能够比人类更高效地读取大量的数据、学习数据的特征并从中找出数据的模式。这样的任务也被称为机器学习或者模式识别。原创 2023-05-29 15:34:30 · 33 阅读 · 0 评论 -
[LightGBM] [Warning] Stopped training because there are no more leaves that meet the split requireme
lightgbm原创 2023-05-23 16:53:17 · 1065 阅读 · 0 评论 -
使用LightGBM模型的特征重要性
总之,gbm.feature_importance()返回每个特征的相对重要性评分,评分的计算依赖于整体的训练过程,方法有gain和weight之分,官方推荐使用weight方法。所以特征重要性的 Evaluation 主要依赖于整体的训练过程,而不是某一次训练的结果。它返回的是每个特征的相对重要性评分。特征重要性分析可以帮助我们理解模型,发现并去除不相关的特征,提高训练的速度和效果。小的特征重要性评分值代表当前特征对该模型的贡献较小,可以考虑去除。将所有特征的评分进行标准化,得出各特征的相对重要性排名。原创 2023-05-05 16:07:50 · 3291 阅读 · 0 评论 -
xgboost的原理和实战
转载自https://blog.csdn.net/github_38414650/article/details/76061893以及https://blog.csdn.net/u011630575/article/details/79418138和csdn各博主的学习资料要了解xgboost是什么,首先要明白两个概念1.xgboost是很多CART回归树的集成2.bo...转载 2018-07-21 17:13:01 · 580 阅读 · 0 评论 -
通俗理解集成学习boosting和bagging和随机森林
转载自csdn各种资料First,What is Ensemble Learning1.将多个分类方法聚集在一起,以提高分类的准确率(可以是相同or不同算法)2.集成学习法由训练数据构建一组基分类器,然后通过对每个基分类器的预测进行投票来进行分类3.严格来说,集成学习并不算是一种分类器,而是一种分类器结合的方法。4.如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个...转载 2018-07-20 21:34:09 · 9575 阅读 · 2 评论 -
决策树算法
1.what is decision tree所谓决策树,就是一个类似于流程图的树形结构,树内部的每一个节点代表的是对一个属性的测试,树的分支代表该属性的每一个测试结果,而树的每一个叶子节点代表一个类别。在决策树中,所有的特征均为符号值,即离散值。如果某个特征的值为连续值,那么需要先将其离散化。从根节点到叶节点的一条路径就形成对相应对象的类别预测,目的是希望决策树的分支节点所包含的样本...原创 2018-07-04 14:06:19 · 521 阅读 · 0 评论 -
决策树算法的补充与代码实现
决策树用树形结构对样本的属性进行分类,是最直观的分类算法,而且也可以用于回归。1.决策树算法的优点:1:理解和解释起来简单,且决策树模型可以想象2:需要准备的数据量不大,而其他的技术往往需要很大的数据集,需要创建虚拟变量,去除不完整的数据,但是该算法对于丢失的数据不能进行准确的预测3:决策树算法的时间复杂度(即预测数据)是用于训练决策树的数据的对数4:能够处理数字和数据的类别(需要做相应的转变),...原创 2018-07-02 21:06:31 · 555 阅读 · 0 评论