自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 BAT机器学习特征工程工作经验总结(一)如何解决数据不平衡问题(附python代码)

很多人其实非常好奇BAT里机器学习算法工程师平时工作内容是怎样?其实大部分人都是在跑数据,各种map-reduce,hive SQL,数据仓库搬砖,数据清洗、数据清洗、数据清洗,业务分析、分析case、找特征、找特征…而复杂的模型都是极少数的数据科学家在做。例如在阿里,算法工程师要挖掘业务场景,根据业务找出高效的特征,2周内可以完成一次特征迭代,一个月左右可以完成模型的小优化,来提升auc。因此特...

2018-10-14 14:15:39 1020

原创 BAT机器学习特征工程工作经验总结(四)如何做特征选择

在特征工程部分,我们构建了一系列位置信息相关的特征、组合特征、成交时间特征、 排序特征、类别稀疏特征等,这么多维特征一方面可能会导致维数灾难,另一方面很容易导致过拟合,需要做降维处理,降维方法常用的有如 PCA,t-SNE 等,这类方法的计算复杂度比较高。并且根据以往工作经验,PCA 或 t-SNE 效果不是特别好。 除了采用降维算法之外,也可以通过特征选择来降低特征维度。 特征选择的方法很多: ...

2018-10-14 22:22:22 690 1

原创 BAT机器学习特征工程工作经验总结(三)如何做特征处理和构建(附python代码)

特征处理和构建一般对以下几种数据类型做处理: 数值型 类别型 时间型 文本型 统计型 组合特征 2.1 数值型 1 幅度调整/归一化:python中会有一些函数比如preprocessing.MinMaxScaler()将幅度调整到 [0,1] 区间。 2.统计值:包括max, min, mean, std等。python中用pandas库序列化数据后,可以得到数据的统计值。 3.离散化:把...

2018-10-14 21:49:23 969

原创 BAT机器学习特征工程工作经验总结(二)如何做数据清洗和预处理(附python代码)

这篇是展示平时工作中如何做数据清理和预处理。 一般数据清理和预处理的流程是: 数据加载与粗略查看 处理丢失的数据 处理离群点 数据统计 特征值的合并、连接 数据转换、标准化、归一化 去除常变量 下面会拿热门的铁达尼号等数据做示范: 1.数据加载鱼粗略查看 在pandas读进来数据一个train后,train的格式为DataFrame,调用下面的几个方法就可以大致了解我们得到的数据是什么,有什...

2018-10-14 15:17:04 802

原创 2018最新实用BAT机器学习算法岗位系列面试总结(结构化数据特征工程)

特征工程,是对原始数据进行一系列工程处理,目的是去除原始数据中的杂质和冗余,设计更高效的特征来描述求解的问题与预测模型之间的关系。 特征工程主要对以下两种常用的数据类型做处理: (1)结构化数据。结构化数据类型可以看作关系型数据库的一张表,每列都有清晰的定义,包含了数值型,类别型两种基本类型;每一行数据表示一个样本的信息。 (2)非结构化数据。非结构化数据主要包括文本,图像,音频,视频数据,其包含...

2018-10-13 20:55:50 758

原创 2018最新BAT机器学习算法岗位面试分享

从18年6月份开始,参加了一些公司的算法工程师/机器学习工程师岗位的社会招聘,拿到了一线知名互联网比如BAT的算法岗位offer, 做一些总结,希望可以给大家准备这个职位提供些信息。 一、需要掌握的基本技能 数据结构知识 掌握一门编程语言,建议最好会Python 机器学习常用算法或者某一细分领域(推荐,自然语言处理,图像识别,语音识别等)的常用算法 建议:最好先掌握最基础的机器学习常用算法,例如逻...

2018-10-10 20:45:08 448

原创 2018最新实用BAT机器学习算法岗位系列面试总结(内附算法技能导图)

我发现市面上关于机器学习算法工程师面试题目总结的不是特别全面,没有考虑到工作的实用性,所以将会结合自身工作经验,打算对每个机器学习算法工程师所需要的技能规整出相应的核心面试题,分享出来,如果大家有什么补充的,欢迎留言。甚至如果你想咨询如何通过机器学习算法岗位也可以加我(看博客名),我可以给出建议。 下图是机器学习算法工程师所需要的各方面技能,也是面试要问到的问题。 我会从上面每个方面至少写一篇文...

2018-10-10 20:16:29 534

原创 经验分享:技术岗位后期转管理应该如何做

现在不少技术牛人的技术能力无论广度还是深度都达到一定的程度,任何技术需求都可以轻松解决。 但是,在技术和管理两方面同时都很出色的大牛缺非常少见。我之前也问过身边技术大牛为什么不转去管理方向,他们普遍觉得不是特别喜欢做管理方面,因为管理 那些烦琐事没有非常大的意义而且浪费时间,管理岗位无法实实在在的体现他们对公司的价值,所以他们偏向于喜欢在技术方面继续学习挖深。 实际上,技术和管理并不能完全分离出来...

2018-10-04 16:31:12 659

原创 许多2018年最新内推岗位来袭,你准备好了吗?千万别错过这次金九银十哟!

最近又到了2018年的“金九银十”,招聘群里好多朋友都在问群主我关于跳槽、面试以及如何选择适合自己的公司的内容,还有好多人问群主我有哪些知名公司的内推岗位,想多了解下。 因此,群主在这里提供一部分内推岗位的信息,如果有感兴趣的朋友或者想知道更多岗位的朋友可以加vx: bread2008,进行进一步咨询。希望这篇内推岗位文章可以给求职的朋友们提供帮助,觉得有用的点个赞或者转发,非常谢谢你们! 首先...

2018-09-27 23:03:37 236

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除