花名:白起

科技改变世界,技术改变人生。

spark RDD分区2GB限制(Size exceeds Integer.MAX_VALUE)

最近使用spark处理较大的数据文件,遇到了分区2G限制的问题,spark日志会报如下的日志: WARN scheduler.TaskSetManager: Lost task 19.0 in stage 6.0 (TID 120, 10.111.32.47): java.lang.Illega...

2017-08-25 15:17:32

阅读数:3280

评论数:0

使用xgboost进行特征选择

xgboost在各大数据挖掘比赛中是一个大杀器,往往可以取得比其他各种机器学习算法更好的效果。数据预处理,特征工程,调参对Xgboost的效果有着非常重要的影响。这里介绍一下运用xgboost的特征选择,运用xgboost的特征选择可以筛选出更加有效的特征代入Xgboost模型。 这里采用的...

2017-08-17 15:34:15

阅读数:1664

评论数:0

特征选择:连续特征离散化达到更好的效果

http://www.zhihu.com/question/31989952 连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果? Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里? A:在工业界,很少直接将连续值...

2017-08-17 14:35:36

阅读数:260

评论数:0

GBDT+LR特征融合的例子

sklearn直接使用.apply即可完成,下面看下简单的例子。 import pandas as pd from sklearn.linear_model import LogisticRegression from sklearn.ensemble import GradientBoostin...

2017-08-14 20:22:30

阅读数:4218

评论数:0

利用GBDT模型构造新特征

通过实践以下内容,使用GBDT生成新的特性,与原特性合并后,进行模型预测,AUC的分数不一定比原数据要高,所以通过测试后选择是否使用此方法。 实际问题中,可直接用于机器学习模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征,将会决定机器学习模型效果的好坏。引用下面一句流行的话: ...

2017-08-14 19:40:13

阅读数:483

评论数:0

将xgboost0.4升级到xgboost0.6版本

因为apply()方法需要xgboost0.6版本,本地是0.4版本的所以需要升级下,简单记录下: pip list pip install xgboost pip install --upgrade pip yum install gcc 升级到xgboost0.6版本 mkdir t...

2017-08-14 18:06:01

阅读数:906

评论数:0

hadoop streaming 按字段排序与输出分割详解

1.默认情况 在Hadoop streaming的默认情况下,是以”\t”作为分隔符的。对于标准输入来说,每行的第一个”\t” 以前的部分为key,其他部分为对应的value。如果一个”\t”字符没有,则整行都被当做key。 2.map阶段的sort与partition map阶段很重要...

2017-08-11 16:10:37

阅读数:253

评论数:0

通过hadoop streaming 输入两个文件或目录

通过Hadoop streaming写Mapreduce程序时,会遇到同时处理多个输入文件或者目录的的需求,那么如何在map程序中知道这一条内容到底来自哪个文件? 其实hadoop已经给留了解决方法:在map端获取环境变量mapreduce_map_input_file,即为本次的输入文件。 s...

2017-08-11 14:52:12

阅读数:2532

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭