- 博客(14)
- 收藏
- 关注
原创 导入xgboost的pickle文件时报错:xgboost.core.XGBoostError
这个问题通常是训练xgboost模型,存储模型pickle文件时的xgboost版本与目前读取使用pickle文件的xgboost版本不一致导致的。重新安装当前的xgboost的版本可能会导致一系列附属包的安装问题。2、还可以尝试解决办法。
2024-05-27 20:54:20
125
原创 机器学习模型训练、验证、测试数据分布的初步评估
当构建机器学习模型时,当测试数据(一般近期时间维度)结果与训练、验证数据结果差异较大时,一般认为是模型存在过拟合问题。除此之外,近期的测试数据可能与模型训练数据本身就存在分布的差异,也会导致模型效果的下降。3、对于连续型变量,可将变量等距离划分区间,然后统计每个区间频数,画频数柱状图,观察频数柱状图分布变化是否较大。1、对于多类别型指标,直接按照类别画柱状图,观察柱状图差异分布是否存在差异。2、对于0、1的二类别型指标,直接将两类频数相除,观察是否变化较大。二、观察入参X指标的分布。
2024-04-26 20:37:56
200
1
原创 Python构建xgboost模型-auc模型验证,判黑、判白生产阈值确定
使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。AUC越大,说明分类器越可能把真正的正样本排在前面,分类性能越好。主要是通过模型预测出每个数据y的预测值,同时与y的实际值进行比较,计算判黑、判白阈值确定时的对应准确率、覆盖率,然后根据实际生产的需要选择合理的阈值。如上输出结果,假定我们需要确定判断通过的准确率不能低于98%,那么我们的阈值最大只能设定为0.24,对应的正确判白占比为33.37%,其中实际的白有85.65%
2024-01-29 21:06:55
704
原创 Python构建xgboost模型-训练、测试、验证数据及构建,模型训练,及模型调参介绍
测试集:用来评估模最终模型的泛化能力,但不能作为调参、选择特征等算法相关的选择的依据。一般取与训练和测试不同时间段的数据,查看模型实际应用效果及随时间变化情况。验证集:模型训练过程中单独留出的样本集,用于初步查看模型效果,是否过拟合,进一步调参。训练集:用于训练模型。
2024-01-23 18:37:46
770
1
原创 Python构建xgboost模型-特征分箱、WOE转换、IV值计算
IV值主要表示特征的预测能力,判断特征重要性的,因为做完特征工程后,会衍生出很多特征,有的变量是没用的,或者说对模型贡献非常非常小,所以我们需要筛选最重要的特征。1、可以提高模型的性能:根据公式以每一箱中的相对全体的log odds的超出作为编码依据,能够提高模型的预测精度,同时公式也符合LR的思想。如入模特征异常大时,分箱后只是作为一个类别入模,如果将值直接入模,则会对模型造成较大的干扰。2、分层抽样中的WOE不变性:如果建模需要对好坏样本进行分层抽样,则抽样后计算的WOE与没分层计算的WOE是一致的。
2024-01-21 17:04:37
1070
原创 Hive利用partitioned构建静态分区表,并用alter对分区表进行数据更新的注意点
hive构建分区表,并对分区表进行相关数据修改。
2023-11-15 20:29:53
129
1
原创 Anconda/Poetry创建虚拟环境,并利用Pycharm设置该虚拟环境
1、当文件中有poetry.lock、pyproject.toml文件时,并且teminal终端python版本符合,可以直接使用poetry install安装虚拟环境。setting -> add -> poetry environment -> existing environment -> 查询到的poetry虚拟环境地址。3、注意Pycharm中terminal默认的python环境可能与setting配置的虚拟环境不一致,需要激活对应目录下的虚拟环境。一、当没有使用poetry做项目管理时。
2023-10-18 21:20:52
1523
原创 使用 threading.Thread()多线程调用url接口服务,并通过封装 threading.Thread(),重写 run 方法获取调取后的结果
【代码】使用 threading.Thread()多线程调用url接口服务,并通过封装 threading.Thread(),重写 run 方法获取调取后的结果。
2023-09-03 16:46:17
115
原创 dolphinschedule调度跑python文件与sql文件,运行,传参,数据本地保存等相关介绍
其中--outputformat=dsv表示可自定义分割符,--delimiterForDSV=$'\t'表示以符号‘\t’为分割符,同时将以特定文件名data_${upload_date}.csv 保存对应地址。5、当调度运行python文件时如何传参。直接在 .py 文件后面加入对应参数,例如。hive运行时,相关参数介绍参见地址。1、调度中时间变量的定义。
2023-07-28 21:13:42
1466
1
原创 scp本地文件上传远程服务器,遇到到错误:kex_exchange_identification: read: Connection reset by peer Connection reset by
其中 -r 可要可不要,有时表示上传的是目录,后面紧跟本地文件或目录地址。其中root表示远程服务器的用户名,接着ip地址。标准格式:远程用户名@计算机IP或者计算机名称:远程路径/文件名。回车后输入远程服务器密码即可。2、有时输入密码后会报标题错误,表示端口被占用,可能存在的问题是,在传文件之前本地使用:ssh root@133.234.12.12进行了登陆,但没有退出,使用命令:exit 进行退出。如果不是该问题,参考解决办法。
2023-07-25 13:56:16
4494
原创 调用函数报错local variable ‘xxx‘ referenced before assignment可能存在的问题
3、主要函数中不存在return 中的变量,因为循环使用函数时,函数如果没有定义默认值时,可能会出现某次运行函数时,没有生成return中的输出变量。
2023-07-22 15:36:05
1410
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人