自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 李宏毅深度学习2021春-笔记

一、笔记第二节-深度学习任务攻略1.总思路定义模型 --> 计算loss --> 优化参数2.model bias or optimization?逻辑判断模型够不够复杂,一般先训练个简单浅层的模型,加深模型后如果loss不将反升,那么就是优化没有做好。当复杂模型在test上的loss高于简单模型的loss,一个直接反应是overfitting了,但如果train上面也是高,就是优化没做好。3.overfitting1)解决overfitting的两种方式:增大样本,限制模型2

2021-09-04 12:15:52 269 1

原创 训练模型前如何处理特征之间的相关性

背景:逻辑回归中,变量间的相关性是不可接受的,总要保持较低的VIF值。在使用GBDT训练模型时,发现排名靠前的几个变量,线性相关性达到了97%,这种变量冗余的情况下训练的模型,即便增加了变量,效果没什么提升。因此,我们到底要不要考虑特征间的相关性?还是说只有线性模型需要考虑特征间的相关性,非线性模型就不用考虑了?以下是相关搜索,待我搞清楚之后填坑:1.特征筛选方法https://www.c...

2018-11-15 14:57:23 10301 2

原创 Python 常用数据处理

以下为积累 Python 常用数据处理方法,不定时更新。1.遍历某文件夹下所有文件 :files= os.listdir(path)2.取消科学计数法:np.set_printoptions(suppress=True)3.判断 DataFrame 为空:全部数据集 df.isnull()为空的列 df.isnull().any()挑选某一列为空的行 df[df[‘a’].isnull...

2018-10-22 14:03:08 358

原创 Python 解析json数组

清理数据时会遇到解析json串的情况,如果只是json串,Python中可通过json包中的loads解析成dict,当遇到json数组时,会稍微麻烦一些。问题描述Dataframe格式的数据集中有一列变量,保存的是json数组,需要解析成宽表:一个ID“小明”,该变量存储的json数组:[{‘科目’ : ‘数学’‘分数’ : ‘80’‘权重’ : ‘0.5’ },{‘科目’ : ...

2018-09-30 15:26:38 39405 1

原创 Python statsmodel包训练LR模型

Python中训练LR模型一般使用sklearn包,输出模型报告和其他机器学习方法一样。但从统计背景出发,想看更详细的报告,statsmodel包可以帮助实现。1.训练模型import statsmodels.api as smfrom statsmodels.stats.outliers_influence import variance_inflation_factor #tr...

2018-09-29 13:35:05 2834

原创 Python模型上线 - 对sklearn2pmml转换自定义函数的探索

一、背景 本地Python训练LR模型,做了WOE分箱,需转成PMML文件上线,希望PMML文件既包含数据处理部分又包含模型打分部分。二、实现过程 思路:通过 DataFrameMappe r创建 mapper –> 通过 PMMLpipeline 创建 pipeline –> sklearn2pmml 转成 PMMLDataFrameMapper 可支持 sklear...

2018-08-30 13:57:37 6598 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除