自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 导入xgboost的pickle文件时报错:xgboost.core.XGBoostError

这个问题通常是训练xgboost模型,存储模型pickle文件时的xgboost版本与目前读取使用pickle文件的xgboost版本不一致导致的。重新安装当前的xgboost的版本可能会导致一系列附属包的安装问题。2、还可以尝试解决办法。

2024-05-27 20:54:20 125

原创 机器学习模型训练、验证、测试数据分布的初步评估

当构建机器学习模型时,当测试数据(一般近期时间维度)结果与训练、验证数据结果差异较大时,一般认为是模型存在过拟合问题。除此之外,近期的测试数据可能与模型训练数据本身就存在分布的差异,也会导致模型效果的下降。3、对于连续型变量,可将变量等距离划分区间,然后统计每个区间频数,画频数柱状图,观察频数柱状图分布变化是否较大。1、对于多类别型指标,直接按照类别画柱状图,观察柱状图差异分布是否存在差异。2、对于0、1的二类别型指标,直接将两类频数相除,观察是否变化较大。二、观察入参X指标的分布。

2024-04-26 20:37:56 200 1

原创 Python构建xgboost模型-auc模型验证,判黑、判白生产阈值确定

使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。AUC越大,说明分类器越可能把真正的正样本排在前面,分类性能越好。主要是通过模型预测出每个数据y的预测值,同时与y的实际值进行比较,计算判黑、判白阈值确定时的对应准确率、覆盖率,然后根据实际生产的需要选择合理的阈值。如上输出结果,假定我们需要确定判断通过的准确率不能低于98%,那么我们的阈值最大只能设定为0.24,对应的正确判白占比为33.37%,其中实际的白有85.65%

2024-01-29 21:06:55 704

原创 Python构建xgboost模型-训练、测试、验证数据及构建,模型训练,及模型调参介绍

测试集:用来评估模最终模型的泛化能力,但不能作为调参、选择特征等算法相关的选择的依据。一般取与训练和测试不同时间段的数据,查看模型实际应用效果及随时间变化情况。验证集:模型训练过程中单独留出的样本集,用于初步查看模型效果,是否过拟合,进一步调参。训练集:用于训练模型。

2024-01-23 18:37:46 770 1

原创 Python构建xgboost模型-特征分箱、WOE转换、IV值计算

IV值主要表示特征的预测能力,判断特征重要性的,因为做完特征工程后,会衍生出很多特征,有的变量是没用的,或者说对模型贡献非常非常小,所以我们需要筛选最重要的特征。1、可以提高模型的性能:根据公式以每一箱中的相对全体的log odds的超出作为编码依据,能够提高模型的预测精度,同时公式也符合LR的思想。如入模特征异常大时,分箱后只是作为一个类别入模,如果将值直接入模,则会对模型造成较大的干扰。2、分层抽样中的WOE不变性:如果建模需要对好坏样本进行分层抽样,则抽样后计算的WOE与没分层计算的WOE是一致的。

2024-01-21 17:04:37 1070

原创 Hive利用partitioned构建静态分区表,并用alter对分区表进行数据更新的注意点

hive构建分区表,并对分区表进行相关数据修改。

2023-11-15 20:29:53 129 1

原创 Anconda/Poetry创建虚拟环境,并利用Pycharm设置该虚拟环境

1、当文件中有poetry.lock、pyproject.toml文件时,并且teminal终端python版本符合,可以直接使用poetry install安装虚拟环境。setting -> add -> poetry environment -> existing environment -> 查询到的poetry虚拟环境地址。3、注意Pycharm中terminal默认的python环境可能与setting配置的虚拟环境不一致,需要激活对应目录下的虚拟环境。一、当没有使用poetry做项目管理时。

2023-10-18 21:20:52 1523

原创 Mac中安装Anconda.sh教程、Python版本更换及Poetry安装等

anconda安装、python版本选择,poetry安装等等

2023-10-18 20:46:38 840

原创 使用 threading.Thread()多线程调用url接口服务,并通过封装 threading.Thread(),重写 run 方法获取调取后的结果

【代码】使用 threading.Thread()多线程调用url接口服务,并通过封装 threading.Thread(),重写 run 方法获取调取后的结果。

2023-09-03 16:46:17 115

原创 python开发时,分别基于字典、lru_cache装饰器、LRUCache、redis等方式进行缓存

python缓存的各种方式

2023-09-03 16:20:25 136

原创 dolphinschedule调度跑python文件与sql文件,运行,传参,数据本地保存等相关介绍

其中--outputformat=dsv表示可自定义分割符,--delimiterForDSV=$'\t'表示以符号‘\t’为分割符,同时将以特定文件名data_${upload_date}.csv 保存对应地址。5、当调度运行python文件时如何传参。直接在 .py 文件后面加入对应参数,例如。hive运行时,相关参数介绍参见地址。1、调度中时间变量的定义。

2023-07-28 21:13:42 1466 1

原创 scp本地文件上传远程服务器,遇到到错误:kex_exchange_identification: read: Connection reset by peer Connection reset by

其中 -r 可要可不要,有时表示上传的是目录,后面紧跟本地文件或目录地址。其中root表示远程服务器的用户名,接着ip地址。标准格式:远程用户名@计算机IP或者计算机名称:远程路径/文件名。回车后输入远程服务器密码即可。2、有时输入密码后会报标题错误,表示端口被占用,可能存在的问题是,在传文件之前本地使用:ssh root@133.234.12.12进行了登陆,但没有退出,使用命令:exit 进行退出。如果不是该问题,参考解决办法。

2023-07-25 13:56:16 4494

原创 调用函数报错local variable ‘xxx‘ referenced before assignment可能存在的问题

3、主要函数中不存在return 中的变量,因为循环使用函数时,函数如果没有定义默认值时,可能会出现某次运行函数时,没有生成return中的输出变量。

2023-07-22 15:36:05 1410

原创 json.dumps()转换时遇到的一些坑

json\dump\dumps\eval

2023-07-22 15:10:30 378

中文停用词(哈工大、四川大学、百度版)

较全面的中文分词停用词库,包括哈工大停用词库、百度停用词库、四川大学停用词库、中文停用词(人民大学)

2024-05-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除