- 博客(7)
- 资源 (6)
- 收藏
- 关注
原创 快速上手写spark代码系列03:开始写一个spark小脚本(1)
快速上手写spark代码系列:03-开始写一个spark小脚本(1)快速上手写spark代码系列03-开始写一个spark小脚本1训练背景设置第一步准备数据集第二步读取文件第三步做字段提取生成RDD第四步合并RDD第五步过滤某些字段第六步关联用户第七步关联位置参数第八步选取字段生成新的结果第九步存储成指定文件数目训练背景设置上一篇将了RDD操作的各种函数,这一节就把这些函数放在一
2017-06-30 16:55:51 2352 1
原创 快速上手写spark代码系列01:RDD transformation函数入门
快速上手写spark代码系列:01-RDD transformation函数入门标签(空格分隔): RDD transformation快速上手写spark代码系列01-RDD transformation函数入门元素映射类转换map函数flatMap函数filter函数分区集合类转换mapPartitions函数这个属于集合类操作直接对一个分区进行操作mapPartitionsWit
2017-06-29 18:26:40 2949
原创 Linux服务器离线安装xgboost
1.环境准备第一步,检查Python版本$ python -VPython 2.7.5第二步,进入Anaconda官网 https://repo.continuum.io/archive/index.html下载版本 Anaconda2-4.3.0-Linux-x86_64.sh上传到服务上开始安装sh Anaconda2-4.3.0-Linux-x86_64.sh Welcome
2017-06-09 16:46:56 3850
原创 Hive隐藏分割字符\001替换为可见字符
Hive默认的分隔符是\001,属于不可见字符,这个字符在vi里是^A一个文本0000_0,直接cat内容如下: 320643204N2559613979 320828796N446323 320829214N38122627vi打开,显示为如下: 320643204^AN^A25596^A13979 320828796^AN^A446^A323
2017-06-07 18:29:11 34605
原创 hadoop Checksum校验的一个小问题
今天使用下面的命令读取文件的时候val train_male = sc.textFile("file:\\E:\\m\\part-00000")读取数据的时候,报了下面的错误 org.apache.hadoop.fs.ChecksumException: Checksum error后来查资料发现,这个和Checksum校验有问题,查看目录,发现保存的数据里面果然有.part-00000.cr
2017-06-07 10:24:56 4050 1
原创 eclipse.ini配置vm参数解决启动报错问题
eclipse启动报错, Java was started but returned exit code=1,具体信息如下: -startup plugins/org.eclipse.equinox.launcher_1.3.0.v20140415-2008.jar –launcher.library plugins/org.eclipse.equinox.launcher.
2017-06-05 15:00:05 3114
原创 拼写错误:value countBykey is not a member of org.apache.spark.rdd.RDD[(String, Int)]
今天写了一行代码,感觉很简单啊,怎么报错呢,后来一看是一个超级低级错误, 大小写搞错了,countByKey写成了countBykey,所以Spark的算子大小写一定不要搞错,有可能会报上面的错误。scala> sc.textFile("E:\\eventype").map(_.split("\\|")).map(x=>(x(0)+"|"+x(1),1)).countBykey() :23: e
2017-06-01 11:01:24 6564
JAVA程序员职场全攻略+从小工到专家_部分4
2012-03-05
JAVA程序员职场全攻略+从小工到专家_部分3
2012-03-05
JAVA程序员职场全攻略+从小工到专家_部分2
2012-03-05
JAVA程序员职场全攻略+从小工到专家_部分1
2012-03-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人