2016年05月_fjr_huoniao

11月 09月 08月 07月 06月 05月 04月 03月 01月

原创如何把jvm垃圾回收信息打印到文件

非常简单，直接上代码： -verbose:gc -Xms20M -Xmx30M -Xmn10M -XX:+PrintGCDetails -XX:SurvivorRatio=8 -Xloggc:F:\gc1.log直接就将信息打印到了文件gc1.log中去了，文件的内容如下：Java HotSpot(TM) 64-Bit Server VM (24.80-b11) for wind

2016-05-29 13:33:39 4420 1

其实在这之前我早就已经受够了jvm包管一切的特点了，凭什么啊，凭什么我自己不能自己看到自己的内存使用情况，凭什么我不能管理啊。尽管JVM说它帮我们管理内存是为了我们好，但是我却不领情，因为我喜欢所有的都掌控在自己手中，及时我不想去控制我也得知道的清清楚楚。如果不是这样的话，那么出问题的时候，我就像一个傻子一样，我是非常讨厌这种感觉的。鉴于之前不知道怎么在eclipse上设置jvm的大小，也没有这个

2016-05-28 16:26:31 543

原创 ORA-01756: quoted string not properly terminated问题

对于这个问题，网上有一大堆的解决方法，然并卵，千篇一律的抄，我就不信他们遇到的问题的解决方法是一样的，尼玛，连数据库的字符编码都没看过，即使偶然蒙对了也是知其然而不知其所以然，对于这种答案我只能呵呵了。下面说一下我的问题：首先从我本地导出一张表，名字为aa.sql，编码什么的从导出到导出完成，完全没有设置过。然后直接上传到服务器，sqlplus a/b 进去之后，使用@/x/y/aa.sq

2016-05-23 16:23:34 20688 3

原创 spark cogroup操作

private static void cogroup() { // 创建SparkConf SparkConf conf = new SparkConf() .setAppName("cogroup") .setMaster("local"); // 创建JavaSpar

2016-05-15 17:18:09 1877

原创 spark join操作

// 使用join算子关联两个RDD // join以后，还是会根据key进行join，并返回JavaPairRDD // 但是JavaPairRDD的第一个泛型类型，之前两个JavaPairRDD的key的类型，因为是通过key进行join的 // 第二个泛型类型，是Tuple2的类型，Tuple2的两个泛型分别为原始RDD的value的类型

2016-05-15 17:13:10 2380

原创 spark sortByKey

// sortByKey其实就是根据key进行排序，可以手动指定升序，或者降序 // 返回的，还是JavaPairRDD，其中的元素内容，都是和原始的RDD一模一样的 // 但是就是RDD中的元素的顺序，不同了public static void mySortByKey(){ SparkConf conf = new SparkCo

2016-05-15 17:05:42 2138

原创 spark ReduceByKey操作

执行reduceByKey算子 // reduceByKey，接收的参数是Function2类型，它有三个泛型参数，实际上代表了三个值 // 第一个泛型类型和第二个泛型类型，代表了原始RDD中的元素的value的类型 // 因此对每个key进行reduce，都会依次将第一个、第二个value传入，将值再与第三个value传入

2016-05-15 16:58:31 3432

原创 spark groupByKey操作

// groupByKey算子，返回的还是JavaPairRDD // 但是，JavaPairRDD的第一个泛型类型不变，第二个泛型类型变成Iterable这种集合类型 // 也就是说，按照了key进行分组，那么每个key可能都会有多个value，此时多个value聚合成了Iterablepublic static void myGroupByKey

2016-05-15 16:47:10 5818

原创 spark flatmap

flatMap算子，在java中，接收的参数是FlatMapFunction,我们需要自己定义FlatMapFunction的第二个泛型类型，即，代表了返回的新元素的类型 call()方法，返回的类型，不是U，而是Iterable，这里的U也与第二个泛型类型相同 flatMap其实就是，接收原始RDD中的每个元素，并进行各种逻辑的计算和处理，返回可以返回多个元素

2016-05-15 16:15:43 2575

原创 spark filter过滤rdd元素

调用filter方法，rdd中的每个元素都会传入，然后只需要在call方法中写判断逻辑来判断这个元素是不是你想要的，如果是则返回true，否的话，返回falseprivate static void myFilter(){ List list=Arrays.asList(1,2,3,4,5,6,7,8,9,10); SparkConf conf=new

2016-05-15 16:00:35 23550

原创 Spark map 遍历rdd中的每个元素

Map操作主要是遍历rdd中的每个元素，对每个元素进行操作并返回，代码如下：public static void myMap(){ List numbers=Arrays.asList(1,2,3,4,5); SparkConf conf=new SparkConf() .setMaster("local") .s

2016-05-15 15:48:43 21295

原创 spark countByKey用法详解

统计每个key对应的value个数，需要注意的是rdd类型是pairRdd，即键值对的形式的rdd,详细代码如下：private static void myCountByKey(){ SparkConf conf=new SparkConf() .setMaster("local") .setAppName("myCountByKey")

2016-05-15 15:37:58 8864 1

原创 spark saveAsTextFile保存到文件

spark的saveAsTextFile方法只能指定文件夹，但是保存到本地的话，会报空指针错误。代码如下：public static void mySaveAsFile(){ SparkConf conf=new SparkConf() .setAppName("mySaveAsFile") .setMaster("local");

2016-05-03 23:26:45 42331 2

原创 spark take获取前n个元素

take和 collect操作类似，都是从远程集群上获取元素，只是collect操作获取的所有数据，而take操作是获取前n个元素直接上代码：public static void myTake(){ SparkConf conf=new SparkConf() .setMaster("local") .setAppName("myTak

2016-05-03 23:05:21 7868

原创 spark count统计元素个数

太简单了，直接上代码，不解析public static void myCount(){ SparkConf conf=new SparkConf() .setMaster("local") .setAppName("myCount"); JavaSparkContext sc=new JavaSparkContext(

2016-05-03 22:57:33 9435

原创 spark collect遍历

spark collect操作的特点是从远程集群是拉取数据到本地，经过网络传输，如果数据量的话，会给网络造成很大的压力，和foreach的却别是，foreach是在远程集群上遍历rdd中的元素，如果是在本地的话，差别不大。建议使用foreach，不要用collect. 直接上代码：@SuppressWarnings("unchecked") public static vo

2016-05-03 21:47:58 14174

原创 spark 的reduce操作

spark的reduce操作，输入是两个值，输出是一个值，第一第二个值的结果跟第三个值相加，然后前n个数的值和第n个值相加见代码如下： public static void myReduce(){ SparkConf conf=new SparkConf() .setMaster("local") .setAppName("myR

2016-05-03 21:12:52 8805