stacking模型融合_构建特征工程框架、模型融合……关于机器学习的这些事,你都了解吗?...

Tuesday  社区精选

DF数据科学社区已经上线,到底积累了哪些干货呢?

接下来看一下,仙女小编为你整理的每周社区精选吧~

DF社区是以问答与分享为主的大数据技术交流社区,就竞赛提分、算法、模型调参、深度学习、NLP等话题,聚集DF平台8万+数据爱好者与数据科学家,打造数据科学交流、学习、进阶的专业圈子。

本期社区精选,仙女将带你一起了解一下,关于机器学习的那些事。登录DF社区,关注“机器学习”话题,查看更多关于机器学习的干货。

1

‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

机器学习中融合模型对竞赛题目提升有多少帮助?

在一场比赛中,通过调参和训练数据模型之后,融合算法blending和stacking对算法会有多少作用?

平台ID:金色两点半

拿CCF基金相关性预测的赛题来说,有结构差异的模型做ensemble可以让最优单模型分数从0.845xx提升到0.846xx,一个千分位就决定了能不能进TOP。其实我更欣赏单模型进前排的玩家,我也在向这个方向努力

2

‍ ‍ ‍ ‍

为什么一些机器学习模型需要对数据进行归一化?

求助~

平台ID:zychyz

一般来说,树模型不需要归一化,而非树模型需要归一化。

树模型不需要归一化的原因是,其只考虑特征取值的相对位置或者说排序,对特征进行归一化操作,并不会改变特征值在该特征中的排序,对模型的影响较小。


非树模型则大多会计算距离,并且特征间量纲不同也会对模型有影响,所以大部分时候都是需要对特征进行归一化的。

平台ID:DFUser1551927058267

归一化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。

归一化后加快了梯度下降求最优解的速度。等高线变得显得圆滑,在梯度下降进行求解时能较快的收敛。如果不做归一化,梯度下降过程容易走之字,很难收敛甚至不能收敛。


把有量纲表达式变为无量纲表达式, 有可能提高精度。一些分类器需要计算样本之间的距离(如欧氏距离),例如KNN。如果一个特征值域范围非常大,那么距离计算就主要取决于这个特征,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要)
逻辑回归等模型先验假设数据服从正态分布。

3

数据科学和机器学习、深度学习的关系?

小白一个,特别想搞清楚数据科学和机器学习以及深度学习之间的关系?

平台ID:撞了南山也不回头

数据科学应该包含了机器学习和深度学习方面吧。然后机器学习是起源于统计学,通过统计学习的方法来自学习,通常的机器学习算法有KNN/Kmeans/决策树/SVM/随机森林啥的,一大堆。深度学习是通过构造深层网络提取特征,往往需要大量的训练数据。。。我也不太懂,不过机器学习在面试中往往问的比较多,是深度学习的基础,好好学。

平台ID:大木头大木桶

传统意义上的数据科学包含机器学学习,而深度学习又是机器学习的一个分支。

数据科学是从数据中提取知识并应用的的综合性学科。它依赖计算机科学(数据结构、算法、可视化、大数据支持和通用编程)、统计学(回归和推理),以及领域知识(用于提问和解释结果)。

数据科学包含以下:

1.数据库,提供信息的存储和集成。

2.文本分析和自然语言处理

3.复杂网络分析

4.数据可视化

5.机器学习(包括聚类、决策树、分类和神经网络)

6.时间序列处理,数字信号处理是股市分析师、经济学家以及音频和视频领域的研究人员不可或缺的工具。

7.大数据分析,通常指对频繁生成和获取的大于1TB的非结构化数据(文本、音频、视频)进行分析。

4

面板数据的机器学习技术

在测试集均匀分布的情况下,大多数机器学习算法不使用具有不相关示例的顺序数据集。

如果我们需要建模序列 ,RNN是最好的答案。

然而,如果我们必须处理面板数据(纵向),需要怎么做?

例如在医疗数据中,我们有不同的患者数据库,包括心率,累积枕头数量,体重,病情测量等日常情况。
这种情况下数据是顺序的,RNN无法处理。在这种情况下可以应用哪些技术?

平台ID:死亡

importance的特征选择方法可以了解下。

如果正在考虑将机器学习应用于时间(即面板数据),
那么建议使用递归神经网络(RNN)来完成手头的任务。
在应用神经网络时,必须拥有足够的数据。
如果不是的话,不推荐机器学习技术,而是推荐基于ARMA的模型。

7.大数据分析,通常指对频繁生成和获取的大于1TB的非结构化数据(文本、音频、视频)进行分析。

5

怎么构建特征工程框架?

本人研究方向主要是深度学习,擅长端到端的框架。请问特征工程的框架,初始时是加入一些基本特征,然后做特征选择,用树模型构造pipeline吗?怎样加入一个新特征,并且判断是否有效?有什么好的方法与现成的源码框架吗?

平台ID:GrandRookie

构造特征的框架我一般用两种思路,一种是根据数据字段的类型,另一种是根据业务理解。

第一种需要你先了解不同数据字段的类型,都可以通过什么方式构造特征,比如数值型,我们可以做些mean、max、min,比值、差值等统计特征,比如类别型的字段,我们可以做frequentEncoder, onehotEncoder等。了解了这些,你就可以根据你拿到的数据构建特征了,不过这种方法一般比较暴力。

第二种是基于业务理解,比如科大讯飞那个CTR比赛,在拿到数据的时候就把字段根据业务理解分好,比如用户、广告主、媒体、上下文等,然后还是基于业务理解和EDA去构造特征,比如是不是曝光比较多的广告容易被点击等等。关于如何验证特征是否有效,打比赛的话是构造合适的线下验证集,另外kaggle上有个关于null importance的特征选择方法可以了解下。

平台ID:包大人爱吃肉

恭喜你,已经接近automl的问题了,现在一个困难是从meta信息中auto出场景,从而缩小搜索空间,feature自动衍生是维度爆炸的,不仅仅是一个简单的组合优化问题。如果场景明确,那么基于feature generation 和selection这一套方法,是可以取得很高的baseline效果的,具体可以参看NIPS automl 竞赛,PAKDD automl竞赛,以及KDD automl竞赛。基于强化学习或者启发式搜索的方法在一般的场景下会取得不错的效果。

当然,automl是人工智能皇冠上的明珠,困难很多,价值也很大,欢迎入坑。


点击阅读原文

立即申请社区邀请码!

审核通过后,

我们会通过邮件发放邀请码。

填写邀请码,才可以进入社区哦。

赶快@你“心仪”的答主,为你答疑解惑吧!

当然啦!

仙女小编这里总有走后门的机会~

转发这篇文章到朋友圈

截图发到后台

仙女小编将随机抽取10位锦鲤,

赠送邀请码!

快要沉溺在数据的海洋里,怎么办?

别怕,会有DF社区的数据大神替我救你。

e190009c63fcaa9a4bd7147ec9089922.png

DF竞赛平台——协作、数据、知识、技能,为数据科学家赋能

竞赛平台:真实业务场景、海量行业数据,实战升级,收获荣誉、奖金、Offer;

教育平台:真实案例教学,学霸经验、名师指点,轻松点亮数据科学家技能树;

知识社区:结交技术大咖、行业高知、升级打怪小伙伴,开启数据科学玩家世界

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值