马消
文章平均质量分 66
StephenC_30
这个作者很懒,什么都没留下…
展开
-
KNN —K最近邻
特征空间中的两个实例点的距离是两个实例点相似程度的反映。K近邻法的特征空间一般是n维实数向量空间Rn。使用的距离是欧氏距离,但也可以是其他距离,如更一般的Lp距离或Minkowski距离。k值的选择会对k近邻法的结果产生重大影响。在应用中,k值一般取双一个比较小的数值,通常采用交叉验证法来选取最优的k值。距离度量、k值的选择、分类决策规则。原创 2023-11-03 14:58:04 · 65 阅读 · 0 评论 -
网格搜索(GridSearchCV)
GridSearchCV的名字其实可以拆分为两部分,GridSearch和CV,即网格搜索和交叉验证。这两个名字都非常好理解。网格搜索,搜索的是参数,即在指定的参数范围内,按步长依次调整参数,利用调整的参数训练学习器,从所有的参数中找到在验证集上精度最高的参数,这其实是一个训练和比较的过程。GridSearchCV可以保证在指定的参数范围内找到精度最高的参数,但是这也是网格搜索的缺陷所在,他要求遍历所有可能参数的组合,在面对大数据集和多参数的情况下,非常耗时什么是GridSearch。原创 2023-11-03 11:54:01 · 722 阅读 · 0 评论 -
回归评估指标
MSE是回归任务最常用的性能度量之一.sklearn中的使用方法类似,当目标实现指数增长时,例如人口数量、一种商品在几年时间内的平均销量等,这个指标最适合使用,y值存在负数的话,这个指标不能用。给定数据点的平均绝对误差,一般来说取值越小,模型的拟合效果就越好。sklearn中的使用方法和解释方差分一样。MAE其实就是是L1损失期望。解释方差分,这个指标用来衡量我们模型对数据集波动的解释程度,如果取值为1时,模型就完美,越小效果就越差。中位数绝对误差适用于包含异常值的数据的衡量。原创 2023-11-03 11:36:09 · 159 阅读 · 0 评论 -
K折验证交叉验证
交叉验证既可以解决数据集的数据量不够大问题,也可以解决参数调图优的问题。这块主要有三种方式:简单交叉验证(HoldOut检验)、k折交叉验证(k-fold交叉验证)、自助法。该文仅针对k折交叉验证做详解。原创 2023-11-03 11:25:44 · 346 阅读 · 0 评论 -
Boosting
一般我们通过抽样,来通过样本估计总体。但是如果总体不服从norm分布,或者我们不是是为了看均值比较,那么久局限了。及我们反复抽取总体中的样本,那么这些样本的均值、中位立数等等都会呈现正态分布。2.Boosting方法-使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成一个预测性能十分强大的机器学习模型。Bagging套袋法实质是:通过Bootstrap的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。原创 2023-11-03 10:12:58 · 42 阅读 · 0 评论 -
KMeans聚类
【代码】KMeans聚类。原创 2023-10-19 14:18:41 · 37 阅读 · 0 评论 -
分词,TF-IDF,朴素贝叶斯进行文本分类
【代码】分词,TF-IDF,朴素贝叶斯进行文本分类。原创 2023-10-11 14:01:27 · 155 阅读 · 0 评论 -
Logistic回归
Logistic回归原创 2023-10-11 15:21:01 · 43 阅读 · 0 评论 -
词频统计之TF-IDF
词频统计,文本分类前原创 2023-10-09 15:02:14 · 627 阅读 · 0 评论 -
日常分析使用的小工具函数
【代码】日常分析使用的小工具函数。原创 2023-10-09 11:02:35 · 64 阅读 · 0 评论 -
数据清洗方法
当数据符合正态分布时,使用3σ。原创 2023-10-09 12:01:14 · 51 阅读 · 0 评论