机器学习工程
文章平均质量分 53
MusicDancing
这个作者很懒,什么都没留下…
展开
-
GBDT+LR级联实现
11原创 2023-07-31 23:00:27 · 282 阅读 · 0 评论 -
一般模型评估与特征可视化
11# coding:utf-8import lightgbm as lgbimport numpy as npimport pandas as pdfrom woe.eval import eval_segment_metricsfrom sklearn.metrics import precision_recall_curveimport matplotlib.pyplot as pltfrom sklearn.metrics import roc_auc_scoreimport原创 2021-09-13 15:10:07 · 168 阅读 · 0 评论 -
大数据技术的一些题目
1. kafka相关1.1 怎么解决kafka的数据丢失producer端: 宏观上看保证数据的可靠安全性,肯定是依据分区数做好数据备份,设立副本数。 broker端: topic设置多分区,分区自适应所在机器,为了让各分区均匀分布在所在的broker中,分区数要大于broker数。 分区是kafka进行并行读写的单位,是提升kafka速度的关键。 Consumer端: consumer端丢失消息的情形比较简单:如果在消息处理完成前就提交了offset,那么就有可能造成数据的丢失。由于Ka原创 2021-09-03 16:41:07 · 117 阅读 · 0 评论 -
ML一些题目
1. ”点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, AUC达到了0.98, 我们可以下的结论是 : (C)A. 模型AUC还不够高,需要0.99以上才符合预期B. 模型已经够好了,不需要做调优了。C. 模型样本需要做缩减,特征或者评估方法需要改进D. 以上都不对2. 对于随机森林和GradientBoosting Trees, 下面说法正确的是: (B)A..原创 2021-09-03 14:27:43 · 1081 阅读 · 0 评论 -
搭建模型线上打分服务
在几台不同机器分别部署相同服务。1. 启动服务start_service.shnohup /data/zz/anaconda3/bin/python algorithms_predict.py >> ../logs/algorithms_predict.log 2>&1 &2.关闭服务stop_service.sh#/bin/bashPID=$(ps -ef|grep algorithms_predict | grep -v g..原创 2021-08-26 17:00:20 · 157 阅读 · 0 评论 -
模型训练xgb
1. model pipeline 拆解2. 代码汇总原创 2021-08-25 12:41:44 · 843 阅读 · 0 评论 -
模型训练lgb
1. model pipeline拆解# -*- coding: utf-8 -*-import pandas as pdimport lightgbm as lgbfrom sklearn import metricsfrom woe.eval import eval_segment_metrics# 一般这样,不需改动params = { 'boosting_type': 'gbdt', 'objective': 'binary', 'metric': 'au原创 2021-08-25 09:56:23 · 724 阅读 · 0 评论 -
一些规则提取
1. 目录结构2. 数据获取3. 抽取规则4. 规则评估原创 2021-08-13 14:28:11 · 279 阅读 · 0 评论