机器学习
文章平均质量分 66
机器学习算法知识讲述专栏
条件漫步
这个作者很懒,什么都没留下…
展开
-
人工智能、机器学习和深度学习的概念、联系与区别
人工智能、机器学习、深度学习的定义转载 2023-01-30 10:59:44 · 2085 阅读 · 0 评论 -
时间序列异常检测
时序异常检测原创 2022-07-25 20:51:15 · 500 阅读 · 0 评论 -
机器学习、深度学习、时序 相关 技术知识
机器学习、深度学习、时序 相关 技术知识原创 2022-05-27 22:26:53 · 207 阅读 · 1 评论 -
AutoML 资料
@创建于:2022.05.27@修改于:2022.05.27文章目录关于AutoML,你想知道的都在这里!7 个 AutoML 库:应对机器学习的下一波浪潮AutoML官网原创 2022-05-27 22:01:50 · 89 阅读 · 0 评论 -
欠拟合、过拟合现象,及解决办法
@创建于:2022.05.27@修改于:2022.05.27文章目录1、过拟合与欠拟合2、欠拟合2.1 出现的原因2.2 解决的办法3、过拟合3.1 出现的原因3.2 解决的办法4. Early stopping5、Dropout6、L1 和 L2 正则化7、参考资料1、过拟合与欠拟合机器学习中模型的泛化能力强的模型才是好模型。对于训练好的模型:若在训练集表现差,不必说在测试集表现同样会很差,这可能是欠拟合导致;若模型在训练集表现非常好,却在测试集上差强人意,则这便是过拟合导致的。过拟合原创 2022-05-27 18:36:37 · 8280 阅读 · 1 评论 -
样本不均衡 & Weighted cross entropy and Focal loss
文章目录1、样本不均衡解决办法1.1 数据样本1.1.1 欠采样、过采样1.1.2 数据增强1.2 目标(损失)函数1.2.1 class weight1.2.2 OHEM1.2.3 Focal loss1.3 模型算法1.3.1 采样+集成学习1.3.2 异常检测1.4 决策及评估指标2、Weighted cross entropy and Focal loss...原创 2022-03-30 10:39:17 · 3752 阅读 · 0 评论 -
scikit learn Splitter Classes:KFold、GroupFold、StratifiedKFold及变体
@创建于:20220105@修改于:202201061、Splitter Classes概述Splitter Classes是scikit-learn 1.0.2中model_selection模块的一个对数据进行切分类的集合,包含的切分方式如下图所示。model_selection模块还包括Splitter Functions(数据切分方法)。本博客,基于scikit-learn 1.0.2介绍其中的几种切分类。2、KFold2.1 方法介绍KFold官网链接。 class sklear原创 2022-01-05 17:41:08 · 1135 阅读 · 0 评论 -
XGBoost.predict() TypeError: predict() got an unexpected keyword argument ‘data‘
@创建于:20211126文章目录1. 问题描述2. 解决办法3. 原因3.1 XGBoost==1.3.3的predict()接口3.2 XGBoost==1.5.0的predict()接口1. 问题描述利用XGBoost算法,训练好模型后,开展预测,代码如下:pred = xgb_model.predict(data=test_X)报错,信息如下:TypeError: predict() got an unexpected keyword argument ‘data’2. 解决办法#原创 2021-11-26 15:55:25 · 4077 阅读 · 0 评论 -
机器学习中 正则化项L1和L2 解读
@创建于:20211019正则化(Regularization) 是机器学习中对原始损失函数引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称。也就是目标函数变成了原始损失函数+额外项,常用的额外项一般有两种,英文称作ℓ1−norm和ℓ2−norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数(实际是L2范数的平方)。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓惩罚是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型叫做Lasso回归,使用L2正则转载 2021-10-19 09:53:28 · 336 阅读 · 0 评论 -
机器学习 scikit-learn GridSearchCV scoring 参数设置
@创建于:20211011@修改于:20211011文章目录1、分类2、聚类3、回归4、参考资料本文来源于官网:3.3. Metrics and scoring: quantifying the quality of predictionsScoring parameter: Model-evaluation tools using cross-validation (such as model_selection.cross_val_score and model_selection.GridSe原创 2021-10-11 16:10:05 · 1922 阅读 · 0 评论 -
人工智能相关 网站仓库
Papers with Code查找论文对应开源代码的神器。Papers with Code 是一个总结了机器学习论文及其代码实现的网站。大多数论文都是有GitHub代码的。这个网站最好的地方就是对机器学习做了任务分类,检索对应的模型非常方便。LTPP路面长期使用性能(LTPP)研究计划是北美最广泛的公路研究计划,它将对世界各国道路事业的发展起到极大的推动作用百度千言:全面的中文开源数据集合千言项目针对每个自然语言处理问题,均收集和整理多个开源数据集,进行统一的处理并提供统一的测评方式..原创 2021-08-27 10:38:18 · 145 阅读 · 0 评论 -
一文简述如何使用嵌套交叉验证方法处理时序数据 @ 机器之心
本文讨论了对时序数据使用传统交叉验证的一些缺陷。具体来说,我们解决了以下问题:1)在不造成数据泄露的情况下,对时序数据进行分割;2)在独立测试集上使用嵌套交叉验证得到误差的无偏估计;3)对包含多个时序的数据集进行交叉验证。本文主要针对缺乏如何对包含多个时间序列的数据使用交叉验证的在线信息。本文有助于任何拥有时间序列数据,尤其是多个独立的时间序列数据的人。这些方法是在医疗研究中被设计用于处理来自多个参与人员的医疗时序数据的。1、交叉验证交叉验证(CV)是一项很流行的技术,用于调节超参数,是一转载 2021-08-26 15:17:05 · 1077 阅读 · 1 评论 -
机器学习中的训练集、验证集、测试集;交叉验证方法
@创建于:20210826@修改于:20210826文章目录1、数据集类型1.1 训练集1.2 验证集1.3 测试集1.4 验证集/测试集区别2、四种交叉验证方法2.1 留出法 (holdout cross validation)2.2 k 折交叉验证(k-fold cross validation)2.3 留一法(Leave one out cross validation)2.4 Bootstrap3、参考资料1、数据集类型数据是人工智能的基础,可以对其进行划分,以达到模型构建与训练的目的。本原创 2021-08-26 14:40:03 · 10146 阅读 · 0 评论 -
树模型画图展示/可视化
@创建于:20210802@修改于:20210802使用scikitlearn和matplotlib的组合,可视化决策树非常简单。tree.plot_tree(clf);dtreeviz方法viz = dtreeviz(clf,x_data=X_train,y_data=y_train,target_name=‘class’,feature_names=iris.feature_names,class_names=list(iris.target_names),title原创 2021-08-02 09:37:24 · 638 阅读 · 0 评论 -
查看 sklearn 模型评估指标
@创建于:20210720@修改于:20210720文章目录1、快速查看评估指标1、快速查看评估指标from sklearn import metricssorted(metrics.SCORERS.keys())['accuracy', 'adjusted_mutual_info_score', 'adjusted_rand_score', 'average_precision', 'balanced_accuracy', 'completeness_score', 'explained_v原创 2021-07-20 15:06:08 · 1039 阅读 · 0 评论 -
异常值检测方法综述
@创建于:20210712@修改于:20210712持续更新~数据挖掘最前线:五种常用异常值检测方法异常检测(一) 异常检测(二) 异常检测(三)原创 2021-07-12 16:38:14 · 97 阅读 · 0 评论 -
转载:机器学习之分类算法五万字总结全网首发(决策树、KNN、SVM、分类对比实验)
@创建于:20210712@修改于:20210712共享一篇有价值的经典机器学习介绍资料,感谢杨秀璋老师的共享。[Python从零到壹] 十四.机器学习之分类算法五万字总结全网首发(决策树、KNN、SVM、分类对比实验)Python从零到壹 专栏...转载 2021-07-12 16:13:59 · 261 阅读 · 0 评论 -
样本不均衡 解决办法
@创建于:20210422@修改于:20210422文章目录1、重采样2、Tomek links3、SMOTE4、NearMiss5、评估指标6、惩罚项7、使用多种算法8、正确的使用K-fold9、重采样使用不同rate本文来自《kaggle竞赛宝典》,作者时晴样本不均的问题大家已经很常见了,我们总是能看到某一个类目的数量远高于其他类目,举个例子,曝光转化数远低于曝光未转化数。样本不均严重影响了模型的效果,甚至影响到我们对模型好坏的判断,因为模型对占比比较高的类目准确率非常高,对占比很低的类目预估的转载 2021-04-22 12:46:14 · 3208 阅读 · 0 评论 -
box-cox变换
@创建于:20210322@修改于:20210322文章目录1、简介2、理论知识3、python使用4、参考文献1、简介Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数进而确定应采取的数据变换形式,Box-Cox变换可以明显地改善数据的正态性、对称性和方差相等原创 2021-03-22 17:25:49 · 12872 阅读 · 0 评论 -
机器学习、视觉、推荐、自然语言、知识图谱、对话、语音识别技能树
@创建于:20210317@修改于:20210317文章目录1、机器学习算法工程师技能树2、数据科学家技能树3、计算机视觉技能树4、推荐系统技能树5、自然语言处理技能树6、知识图谱技能树7、对话系统技能8、语音识别技能树技能树来源于开课吧公开课,特别感谢开课吧整理该资料。1、机器学习算法工程师技能树2、数据科学家技能树3、计算机视觉技能树4、推荐系统技能树5、自然语言处理技能树6、知识图谱技能树7、对话系统技能8、语音识别技能树...原创 2021-03-18 15:44:24 · 667 阅读 · 0 评论 -
python 中 statsmodels模块的 API接口
@创建于:20210315@修改于:20210315文章目录1、statsmodels API2、statsmodels.api3、statsmodels.tsa.api4、statsmodels.formula.api5、参考资料1、statsmodels APIstatsmodels是Pandas生态系统(ecosystem)下Statistics and Machine Learning下的一个库。主要是偏传统频率学派统计方法,具体有下面三大主题组成。statsmodels.api:横截面模原创 2021-03-15 17:07:11 · 14124 阅读 · 2 评论 -
加权移动平均线(Weigted Moving Average,WMA)
@创建于:20210312@修改于:20210312文章目录1、定义2、加权移动平均线的加权方式2.1 末日加权移动平均线2.2 线性加权移动平均线2.3 梯型加权移动平均线2.4 平方系数加权移动平均线3、加权移动平均线的公式4、参考资料1、定义加权移动平均线 (WMA) 将过去某特定范围内(如时间,长度)的数值(如价格)取平均值,权重是依据滑窗的长度,愈靠近当前值的数据,愈重要。计算方式是基于加权移动平均线日数,将每一个之前数据权重提升。每一数据会乘以一个权重,最新的数值会有最大的比重,其之前转载 2021-03-12 15:50:51 · 3895 阅读 · 0 评论 -
转发:ightgbm, xgboost, nn(keras、pytorch) 做二分类,多分类以及回归任务
创建于:20210228修改于:20210228转发:【lightgbm, xgboost, nn代码整理一】lightgbm做二分类,多分类以及回归任务(含python源码)【lightgbm/xgboost/nn代码整理二】xgboost做二分类,多分类以及回归任务【lightgbm/xgboost/nn代码整理三】keras做二分类,多分类以及回归任务【lightgbm/xgboost/nn代码整理四】pytorch做二分类,多分类以及回归任务https://codechina.csdn转载 2021-02-28 17:31:55 · 492 阅读 · 0 评论 -
bagging、boosting、Stacking(自助法、提升法、堆叠法)
创建日期:2021.01.20修改日期:2021.01.20文章目录1. 集成学习2. 基模型3. 基模型同质性4. 集成方法比较4. Bagging 自助法5. Boosting 提升法6. Stacking 堆叠法7. 参考资料1. 集成学习集成学习是一种机器学习范式。在集成学习训练多个模型(通常称为弱学习器)解决相同的问题,并将它们结合起来以获得更好的结果。最重要的假设是:当弱模型被正确组合时,我们可以得到更精确和/或更鲁棒的模型。2. 基模型弱学习器就是基模型。作者认为基模型更准确,因原创 2021-01-20 16:44:30 · 4048 阅读 · 0 评论 -
mlxtend库 Stacking方法
创建于:2021.01.19修改于:2021.01.19文章目录Scikit-learn 新版本发布,新功能详解,测试版本是Version: 0.23.2 【from sklearn.ensemble import StackingClassifier】StackingClassifier 【rom mlxtend.classifier import StackingClassifier】集成学习总结 & Stacking方法详解 【rom mlxtend.classifier impo原创 2021-01-19 18:10:42 · 461 阅读 · 0 评论 -
sklearn Ensemble methods 集成学习模型
@创建于:2021.01.14@修改于:2021.01.14文章目录1、介绍2、重点参考链接3、Python sklearn.ensemble模块,常用函数和类1、介绍集成学习的目标是结合一组基学习器的预测构建学习算法来提高单个学习器的普遍性和健壮性。通常有两种方法:averaging:构建一组相互独立的学习器求预测的均值。由于方差的减小,组合学习器的性能比任何单个学习器都好。(eg:bagging,随机森林)boosting:基学习器串行组合,试图减小组合学习器的偏差,把几个弱学习器组合成一原创 2021-01-14 18:03:51 · 1926 阅读 · 0 评论 -
xgboost报错 ValueError: feature_names mismatch
@创建于:20210107@修改于:20210107文章目录1、背景2、predict()介绍3、解决办法3.1 把validate_features设置为False3.2 把输入的数据(dataframe类型)的列名进行对应修改3.3 变更predit输入数据的格式3.4 思考4、参考链接1、背景XGBClassifier自带fit()、predict()方法。当通过网格搜索,交叉验证后,获得了最佳的参数,形成模型,并保存。当再次加载模型,对测试集进行预测时候,使用XGBClassifier自原创 2021-01-07 15:30:10 · 5521 阅读 · 6 评论 -
K-近邻算法: k-nearest neighbor classification (kNN) 详细介绍
@创建于:2020.04.09@修改于:2020.04.09,2024.06.22文章目录1、kNN介绍2、k近邻法的三要素详解2.1 距离度量2.2 k值的选择2.3 分类决策规则3、k近邻法的实现:kd树4、Python实现过程5、优缺点6、常见问题1、kNN介绍kNN是一个基本而简单的分类算法,作为监督学习,那么KNN模型需要的是有标签的训练数据,对于新样本的类别由与新样本距离最近的k个训练样本点按照分类...原创 2020-04-09 15:07:20 · 48351 阅读 · 3 评论 -
机器学习之模型选择:模型选择指南、模型评估、模型评价
创建于:@2020.04.08修改于:文章目录1、背景2、机器学习模型选用指南2.1 分类问题2.1.1 速度慢,但准确2.1.2 速度快2.1.3 对支持向量机(SVM)内核的选择(来自吴恩达的课程)2.2 回归问题2.2.1 速度慢,但准确2.2.2 速度快2.3 聚类2.3.1 层次聚类分析2.3.2 非层次聚类分析2.4 降维2.4.1 主成分分析(PCA)2.4.2 主题建模2.5 s...原创 2020-04-08 23:01:16 · 6524 阅读 · 0 评论 -
逻辑回归(LR)和支持向量机(SVM)之间的相同点和不同点
创建于:2020.03.18修改于:2020.03.19文章目录1. 背景2. 逻辑回归(LR)3. 支持向量机(SVM)4. 异同点5. 参考连接1. 背景自己在学习机器学习知识,在学习的时候,感觉懂了,当被别人问到时候,发现回答不上来。基本功不扎实。网上资源挺多的,还是自己写写更有印象。2. 逻辑回归(LR)3. 支持向量机(SVM)4. 异同点5. 参考连接(1)支持向量...原创 2020-03-19 18:45:32 · 2571 阅读 · 0 评论