大数据
鸡康
这个作者很懒,什么都没留下…
展开
-
scala自定义spark的二次排序
import org.apache.spark.SparkConfimport org.apache.spark.SparkContextclass SortKey(val clickCount: Int, val orderCount: Int, val payCount: Int) extends Ordered[SortKey] with Serializable { def compare(that: SortKey): Int = { if(clickCount - tha原创 2022-01-22 21:46:48 · 119 阅读 · 0 评论 -
spark自定义累加器
import com.ibeifeng.sparkproject.constant.Constantsimport com.ibeifeng.sparkproject.util.StringUtilsimport org.apache.spark.AccumulatorParamimport org.apache.spark.SparkConfimport org.apache.spark.SparkContext/** * Scala中,自定义Accumulator * 使用objec原创 2022-01-22 17:11:54 · 204 阅读 · 0 评论 -
spark的Java API实现二次排序
原文链接https://www.cnblogs.com/sunrise88/p/7251483.html自定义二次排序的Key类import java.io.Serializable; import scala.math.Ordered; public class SecondSortKey implements Serializable, Ordered<SecondSortKey> { /** * serialVersionUID */ pr转载 2022-01-22 17:07:29 · 185 阅读 · 0 评论 -
虚拟机里的Kafka不能被window下的程序访问
原文链接https://blog.csdn.net/weixin_44033210/article/details/121732684我的需求利用一段Java程序将Kafka的两个topic的数据进行连通,数据流向 topic1 --> kafka服务 -->topic2问题所有组件、服务都运行正常,但是数据就是没有从topic1流向topic2解决参考本文的第一个标题对应的链接,我本人使用的是kafka的0.10版本,写下这个博客只为记录一下踩的坑和解决:图来自原博客原创 2022-01-13 20:37:16 · 854 阅读 · 0 评论 -
自定义分区Partitioner
数据参考之前的博客MapReduce流量统计Mapper和Reducer还有WritableObject与之前的一样My_Partitioner类import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Partitioner;public class My_Partitioner extends Partitioner<Text,WritableObject> { public My_Parti原创 2021-06-17 10:03:23 · 160 阅读 · 0 评论 -
NLineInputFormat的使用
Mapper阶段import java.io.IOException;public class NLineMapper extends Mapper<LongWritable, Text,Text, IntWritable> { Text k = new Text(); IntWritable v= new IntWritable(1); @Override protected void map(LongWritable key, Text value,原创 2021-06-17 08:06:26 · 226 阅读 · 0 评论 -
KeyValueTextInputFormat的使用
细节看大佬博客我的数据banzhang ni haoxihuan hadoop banzhang dcbanzhang ni haoxihuan hadoop banzhang dcMap阶段package com.KeyValueTextInput;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;原创 2021-06-16 21:58:34 · 183 阅读 · 0 评论 -
CombineTextInputFormat的使用
CombineTextInputFormat继承于FileInputFormat类每个txt文件都是由几行单词构成(一行有几个)使用看代码Map阶段package com.combineTextInputFormat;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop原创 2021-06-16 21:08:50 · 457 阅读 · 0 评论 -
MapReduce流量统计
每一行数据的第二个作为Key,value是倒数第二个和倒数第三个及它们的总和封装Hadoop特有的序列化对象(必须实现readFields和write方法)package com.homework;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class WritableObject impl原创 2021-06-16 20:25:23 · 584 阅读 · 0 评论