机器学习工作经验总结
文章平均质量分 87
weixin_bread2008
这个作者很懒,什么都没留下…
展开
-
BAT机器学习特征工程工作经验总结(一)如何解决数据不平衡问题(附python代码)
很多人其实非常好奇BAT里机器学习算法工程师平时工作内容是怎样?其实大部分人都是在跑数据,各种map-reduce,hive SQL,数据仓库搬砖,数据清洗、数据清洗、数据清洗,业务分析、分析case、找特征、找特征…而复杂的模型都是极少数的数据科学家在做。例如在阿里,算法工程师要挖掘业务场景,根据业务找出高效的特征,2周内可以完成一次特征迭代,一个月左右可以完成模型的小优化,来提升auc。因此特...原创 2018-10-14 14:15:39 · 1019 阅读 · 0 评论 -
BAT机器学习特征工程工作经验总结(二)如何做数据清洗和预处理(附python代码)
这篇是展示平时工作中如何做数据清理和预处理。一般数据清理和预处理的流程是:数据加载与粗略查看处理丢失的数据处理离群点数据统计特征值的合并、连接数据转换、标准化、归一化去除常变量下面会拿热门的铁达尼号等数据做示范:1.数据加载鱼粗略查看在pandas读进来数据一个train后,train的格式为DataFrame,调用下面的几个方法就可以大致了解我们得到的数据是什么,有什...原创 2018-10-14 15:17:04 · 802 阅读 · 0 评论 -
BAT机器学习特征工程工作经验总结(三)如何做特征处理和构建(附python代码)
特征处理和构建一般对以下几种数据类型做处理:数值型类别型时间型文本型统计型组合特征2.1 数值型1 幅度调整/归一化:python中会有一些函数比如preprocessing.MinMaxScaler()将幅度调整到 [0,1] 区间。2.统计值:包括max, min, mean, std等。python中用pandas库序列化数据后,可以得到数据的统计值。3.离散化:把...原创 2018-10-14 21:49:23 · 968 阅读 · 0 评论 -
BAT机器学习特征工程工作经验总结(四)如何做特征选择
在特征工程部分,我们构建了一系列位置信息相关的特征、组合特征、成交时间特征、 排序特征、类别稀疏特征等,这么多维特征一方面可能会导致维数灾难,另一方面很容易导致过拟合,需要做降维处理,降维方法常用的有如 PCA,t-SNE 等,这类方法的计算复杂度比较高。并且根据以往工作经验,PCA 或 t-SNE 效果不是特别好。除了采用降维算法之外,也可以通过特征选择来降低特征维度。特征选择的方法很多: ...原创 2018-10-14 22:22:22 · 688 阅读 · 1 评论