- 博客(6)
- 收藏
- 关注
原创 李宏毅深度学习2021春-笔记
一、笔记第二节-深度学习任务攻略1.总思路定义模型 --> 计算loss --> 优化参数2.model bias or optimization?逻辑判断模型够不够复杂,一般先训练个简单浅层的模型,加深模型后如果loss不将反升,那么就是优化没有做好。当复杂模型在test上的loss高于简单模型的loss,一个直接反应是overfitting了,但如果train上面也是高,就是优化没做好。3.overfitting1)解决overfitting的两种方式:增大样本,限制模型2
2021-09-04 12:15:52 274 1
原创 训练模型前如何处理特征之间的相关性
背景:逻辑回归中,变量间的相关性是不可接受的,总要保持较低的VIF值。在使用GBDT训练模型时,发现排名靠前的几个变量,线性相关性达到了97%,这种变量冗余的情况下训练的模型,即便增加了变量,效果没什么提升。因此,我们到底要不要考虑特征间的相关性?还是说只有线性模型需要考虑特征间的相关性,非线性模型就不用考虑了?以下是相关搜索,待我搞清楚之后填坑:1.特征筛选方法https://www.c...
2018-11-15 14:57:23 10325 2
原创 Python 常用数据处理
以下为积累 Python 常用数据处理方法,不定时更新。1.遍历某文件夹下所有文件 :files= os.listdir(path)2.取消科学计数法:np.set_printoptions(suppress=True)3.判断 DataFrame 为空:全部数据集 df.isnull()为空的列 df.isnull().any()挑选某一列为空的行 df[df[‘a’].isnull...
2018-10-22 14:03:08 360
原创 Python 解析json数组
清理数据时会遇到解析json串的情况,如果只是json串,Python中可通过json包中的loads解析成dict,当遇到json数组时,会稍微麻烦一些。问题描述Dataframe格式的数据集中有一列变量,保存的是json数组,需要解析成宽表:一个ID“小明”,该变量存储的json数组:[{‘科目’ : ‘数学’‘分数’ : ‘80’‘权重’ : ‘0.5’ },{‘科目’ : ...
2018-09-30 15:26:38 39408 1
原创 Python statsmodel包训练LR模型
Python中训练LR模型一般使用sklearn包,输出模型报告和其他机器学习方法一样。但从统计背景出发,想看更详细的报告,statsmodel包可以帮助实现。1.训练模型import statsmodels.api as smfrom statsmodels.stats.outliers_influence import variance_inflation_factor #tr...
2018-09-29 13:35:05 2837
原创 Python模型上线 - 对sklearn2pmml转换自定义函数的探索
一、背景 本地Python训练LR模型,做了WOE分箱,需转成PMML文件上线,希望PMML文件既包含数据处理部分又包含模型打分部分。二、实现过程 思路:通过 DataFrameMappe r创建 mapper –> 通过 PMMLpipeline 创建 pipeline –> sklearn2pmml 转成 PMMLDataFrameMapper 可支持 sklear...
2018-08-30 13:57:37 6609 7
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人