2018年12月_卢子墨

12月 11月 10月 09月 08月 07月 06月 05月 04月

原创 Linux 快速同步北京时间命令

[hadoop@hadoop01 ~]$ tzselect# 这部分直接按照要求选择 5 -> 9 -> 1 -> 1 即可配置成中国北京的时间

2018-12-25 09:46:06 3916 4

原创 hive on spark 利用maven重新编译spark

缘由：使用hive on spark 进行hivesql操作的时候报以下错误：Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)' FAILED: Execution Error, retur...

2018-12-21 14:54:41 1550

转载 Linux 下 find（文件查找）命令的用法总结

[转自：http://blog.chinaunix.net/uid-24648486-id-2998767]Linux下查找文件的命令有两个:locate 和 find首先说下locate，locate这个命令是对其生成的数据库进行遍历（生成数据库的命令：updatedb）,这一特性决定了用locate查找文件速度很快，但是locate命令只能对文件进行模糊匹配，在精确度上来说差了点，简单...

2018-12-18 14:47:10 5962

转载 Linux top命令的用法详细详解

[转自：http://www.cnblogs.com/zhoug2020/p/6336453.html] 首先介绍top中一些字段的含义：VIRT：virtual memory usage 虚拟内存1、进程“需要的”虚拟内存大小，包括进程使用的库、代码、数据等2、假如进程申请100m的内存，但实际只使用了10m，那么它会增长100m，而不是实际的使用量RES：resident ...

2018-12-18 09:09:07 365

原创 Spark 协同过滤（CF）如何将一直为Long类型的user转换为Rating中要求的int类型（测试通过）

/*** 问题：* 在对数据进行训练时，Rating要求的是int,int,double，但是现有的数据是long,string,double类型，使用toInt进行转换时依然会报错，这是因为long类型转换成int类型已经超出了int的最大值。* * 解决思路：* 创建两张映射表，将long类型的字段映射成int类型(使用row_number()...

2018-12-17 17:49:18 950

转载 IDEA 的debug断点调试技巧与总结详解篇

详细参考：https://blog.csdn.net/qq_27093465/article/details/64124330

2018-12-10 15:48:27 2467

json paser 属于idea插件用于解析json

懂得都懂 json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser 属于idea插件用于解析json json paser

2022-04-22

适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

分别取对应的文件夹下解压，之后将这两个文件替换到 hadoop-2.*.*/bin目录下即可 winutils.exe、hadoop.dll

2019-04-17

《Spark大数据商业实战三部曲：内核解密商业案例性能调优》2018.02出版

（限于文件1.3G大小，分享为云盘下载地址，请自行下载）本书基于Spark2.2.0版本，以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心，以Spark内核解密为基石，分为上篇、中篇、下篇，对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码，从一个动手实战案例入手，循序渐进地全面解析了Spark2.2新特性及Spark内核源码；中篇选取Spark开发中具有代表的经典学习案例，深入浅出地介绍，在案例中综合应用Spark的大数据技术；下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。

2019-04-16

TA关注的人

lukabruce的博客

原创 Linux 快速同步北京时间命令

原创 hive on spark 利用maven重新编译spark

转载 Linux 下 find（文件查找）命令的用法总结

转载 Linux top命令的用法详细详解

原创 Spark 协同过滤（CF）如何将一直为Long类型的user转换为Rating中要求的int类型（测试通过）

转载 IDEA 的debug断点调试技巧与总结详解篇

json paser 属于idea插件用于解析json

适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

《Spark大数据商业实战三部曲：内核解密商业案例性能调优》2018.02出版

spark-2.3.1-bin-hadoop2.9-without-hive.tgz

spark-2.3.1-bin-hadoop2-without-hive.tgz

spark无法启动，日志无报错信息，具体如图片

原创 Linux 快速同步北京时间命令

原创 hive on spark 利用maven重新编译spark

转载 Linux 下 find（文件查找）命令的用法总结

转载 Linux top命令的用法详细详解

原创 Spark 协同过滤（CF）如何将一直为Long类型的user转换为Rating中要求的int类型 （测试通过）

转载 IDEA 的debug断点调试技巧与总结详解篇

json paser 属于idea插件 用于解析json

适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

《Spark大数据商业实战三部曲：内核解密 商业案例 性能调优》2018.02出版

spark-2.3.1-bin-hadoop2.9-without-hive.tgz

spark-2.3.1-bin-hadoop2-without-hive.tgz

spark无法启动，日志无报错信息，具体如图片

原创 Spark 协同过滤（CF）如何将一直为Long类型的user转换为Rating中要求的int类型（测试通过）

json paser 属于idea插件用于解析json

《Spark大数据商业实战三部曲：内核解密商业案例性能调优》2018.02出版