2018年04月_贾红平

原创 java 设计模式-策略模式

本文章主要通过策略模式解决不同购买价格对应的不同打折方式,并通过注解达到策略的真正适配.应用场景:厂家为搞促销活动,推出购买的价格打折策略,具体打折如下....比如0-1000,不打折1001-2000打九折2001-3000打八折3001-4000打七折解决方案:策略模式因为策略模式就是解决在不同算法之间的动态切换。具体代码如下:package app.four.strategy;/** ...

2018-04-28 18:43:45 240

原创 spark scala-基础action操作

本文章主要通过scala实现spark的基础action操作演示import org.apache.spark.SparkConfimport org.apache.spark.SparkContext/** * @author jhp * spark 基础action操作 */object ActionOperation { def main(args: Array[Str...

2018-04-18 09:52:22 704

原创 spark scala-transformation基础操作

本文章主要通过scala实现spark的transformation的常用功能:1 map算子2 flatMap算子3 sortByKey算子4 join算子5 filter算子import org.apache.spark.SparkConfimport org.apache.spark.SparkContext/** * @author jhp */object Transform...

2018-04-18 09:52:15 280

原创 spark scala-读取各类数据源

本文章主要通过scala实现spark读取各类数据源1 读取hive数据/** * @author jhp * 使用spark读取Hive数据 */object HiveDataSource { def main(args: Array[String]): Unit = { val conf = new SparkConf() .setA...

2018-04-17 09:57:20 1673

原创 spark scala-distinct使用

本文主要通过使用spark的distinct进行去重,实现简单的UV统计import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.sql.Rowimport org.apache.spar...

2018-04-17 09:57:13 5560

原创 spark scala-实现udf函数

本文章主要通过spark实现udf自定义函数import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.sql.Rowimport org.apache.spark.sql.types.St...

2018-04-17 09:57:05 7792

原创 spark streaming - scala统计hdfs

本文章主要通过spark streaming实现hdfs文件的统计import org.apache.spark.SparkConfimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.Seconds/** * @author jhp * spark st...

2018-04-17 09:56:59 380

原创 spark streaming scala -统计热门搜索词

本文主要通过spark streaming实现基于热门搜索词的统计import org.apache.spark.SparkConfimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.Seconds/** * @author jhp * 统计热门搜索词...

2018-04-17 09:56:51 235

原创 spark streaming scala-统计热门产品

本文主要通过spark streaming实现top的热门产品统计import org.apache.spark.SparkConfimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.Secondsimport org.apache.spark.sql.Rowimport o...

2018-04-17 09:56:45 313

原创 spark streaming scala 过滤黑名单

本文章主要通过spark streaming实时过滤黑名单import org.apache.spark.SparkConfimport org.apache.spark.streaming.StreamingContextimport org.apache.spark.streaming.Seconds/** * @author jhp * spark stream...

2018-04-17 09:56:40 459

原创 spark streaming scala-updateStateByKey 进行key的累加统计

updateStateByKey 解释: 以DStream中的数据进行按key做reduce操作，然后对各个批次的数据进行累加在有新的数据信息进入或更新时，可以让用户保持想要的任何状。使用这个功能需要完成两步： 1) 定义状态：可以是任意数据类型 2) 定义状态更新函数：用一个函数指定如何使用先前的状态，从输入流中的新值更新状态。对于有状态操作，要不断的把当前和历史的时间切片的RDD累加计算，...

2018-04-17 09:56:33 530

原创 spark scala-自定义hive函数

本文章主要通过spark实现自定义hive相关函数 1 实现一个自定义hive统计字符串数量的UDAF收需要自定义一个类继承UserDefinedAggregateFunctionimport org.apache.spark.sql.expressions.UserDefinedAggregateFunctionimport org.apache.spark.sql.types.StructT...

2018-04-17 09:35:28 1388

原创 spark 开窗函数

通过spark实现类似于数据库的开窗函数import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.hive.HiveContext;/** * r...

2018-04-17 09:02:35 1330

原创 spark stream 应用-结合hdfs

本文章主要通过spark streaming 统计hadoop的文件,实现wordcountimport java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.f...

2018-04-16 09:29:28 334

原创 spark 项目应用-topn搜索热词统计

本文章通过spark读取hive数据,分析top热点搜索词import java.util.ArrayList;import java.util.Arrays;import java.util.HashMap;import java.util.Iterator;import java.util.List;import java.util.Map;import org.apache.s...

2018-04-16 09:29:13 1458

原创 spark项目应用-新闻网站关键指标离线分析

本文章主要通过spark sql实现新闻网站关键指标的离线分析功能1 页面pv统计以及排序2 页面uv统计以及排序3 新用户注册比例统计4 用户跳出比例统计5 板块热度排行榜统计首先需要生成对应的访问数据import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.io.PrintWriter;im...

2018-04-16 09:28:37 909

原创 spark stream 应用-结合kafka

本文章主要通过spark streaming结合kafka的两种读取数据形式实现wordcount统计1 基于kafka direct方式实时统计wordimport java.util.Arrays;import java.util.HashMap;import java.util.HashSet;import java.util.Map;import java.util.Set;i...

2018-04-16 09:28:00 226

原创 spark stream应用-从flume获取数据

本文章主要实现spark streaming通过两种方式从flume获取数据1 基于pull模式import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java...

2018-04-16 09:27:47 471

原创 spark streaming -基于滑动窗口的热点搜索词实时统计

本文章通过企业真实案例,完成基于搜索词的实时统计功能import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.function.Function;import org.apache...

2018-04-16 09:27:26 621

原创 spark streaming -过滤黑名单

通过spark streaming实时统计过滤黑名单,稍微改动一下,可以结合到真实企业案例中import java.util.ArrayList;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spa...

2018-04-16 09:27:14 896

原创 spark streaming-基于sql实时统计热门产品

本文章主要实现热门商品的top统计,源于真实案例import java.util.ArrayList;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;i...

2018-04-16 09:27:00 810 1

原创 spark streaming-基于updatestatebykey全局统计

本文主要通过spark streaming的updatestatebykey进行单词的缓存的全局统计import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import ...

2018-04-16 09:26:22 537

原创 spark streaming 项目应用-新闻网站关键指标实时统计

本文主要通过spark streaming+kafka实现新闻网站关键指标的实时统计功能1 页面实时pv2 页面实时uv3 实时用户注册数量4 用户实时跳出数量5 实时热门板块首先需要一个实时数据模拟生成器：import java.text.SimpleDateFormat;import java.util.Date;import java.util.Properties;import ja...

2018-04-16 09:26:09 1083

原创 spark rdd转化为dataframe

本文章通过反射的方式,把rdd转化为dataframeimport java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spa...

2018-04-15 21:31:55 538

原创 spark 读取各类数据源

本文章主要通过代码实现spark读取各类数据源1 spark读取hive数据import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.DataFrame;import org.apache.spark.sql.Row;impo...

2018-04-15 18:56:10 5287

原创 spark 实际项目分析-移动端app日志

本文章是企业的一个真实案例简化而来的,主要是统计那个用户的下载流量和上传流量,从而真实分析出每个用户的流量使用情况为完成此功能需要4个类1 AccessLogInfo.java: 用户流量实体信息public class AccessLogInfo implements Serializable { private static final long serialVersionUID = ...

2018-04-15 15:57:14 1054 1

原创 spark 聚合和广播

本文主要通过代码实现spark的聚合和广播两个特殊的算子1 广播变量或者少量的数据,可以起到优化功能import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark....

2018-04-15 15:34:58 309

原创 spark 高级算子

本问主要通过java代码实现spark的高级算子功能1 aggregateBykey// aggregateByKey，分为三个参数// reduceByKey认为是aggregateByKey的简化版// aggregateByKey最重要的一点是，多提供了一个函数，Seq Function// 就是说自己可以控制如何对每个partition中的数据进行先聚合，类似于mapreduce中的，ma...

2018-04-15 15:23:09 828

原创 spark 二次排序

通过代码实现spark的二次排序1 实现二次排序接口ordered/** * 自定义的二次排序key * @author Administrator * */public class SecondarySortKey implements Ordered<SecondarySortKey>, Serializable { private static final lo...

2018-04-15 15:06:31 240

原创 spark排序版本的woldcount

通过代码实现woldcount统计且根据count进行排序package cn.spark.study.core;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.J...

2018-04-15 14:56:54 193

原创 spark 单词统计

本文通过代码实现spark的本地wordcount统计功能和集群模式的worldcount统计功能public class WordCountLocal { public static void main(String[] args) { // 编写Spark应用程序 // 本地执行，是可以执行在eclipse中的main方法中，执行的 ...

2018-04-15 14:53:30 535

原创 spark基础的action操作

本文章主要通过java代码实现spark常用的action操作本文主要通过java代码实现常用的spark的action操作1 reduceprivate static void reduce() { // 创建SparkConf和JavaSparkContext SparkConf conf = new SparkConf() .setAppName("reduce...

2018-04-15 14:03:47 1312

原创 spark基础transformation

本文章主要通过java实现spark常用transformation1 map算子案例/** * map算子案例：将集合中每一个元素都乘以2 */private static void map() { // 创建SparkConf SparkConf conf = new SparkConf() .setAppName("map") .setM...

2018-04-15 13:55:45 148

原创 java多线程编程题

本文章主要通过编码形式实现简单的多线程入门实例1/** * a 线程睡眠10毫秒对变量加1 * b 线程睡眠20毫秒对变量加1 * 持续60毫秒 * 分析：理论上a 线程应该打印6次 b线程应该打印3次 * 思路：通过变量来做累加 */package com.thread.base;/** * a 线程睡眠10毫秒对变量加1 * b 线程睡眠20毫秒对变量加1 * 持...

2018-04-13 22:01:34 1490 1

原创 java高级排序

本文主要通过java代码实现java中相关高级的排序算法1 快速排序package com.sort.advance;/** * Created by jack on 2018/3/25. * 快速排序 * 算法时间复杂度 * 最好：T(n)= O(nlogn) * 最坏：T(n)= O(n*n)：n次比较和n次移动 * * 算法流程： * 在数组中选择一个称为主元(pi...

2018-04-12 16:36:07 252

原创 java排序-基础排序

通过代码实现java排序的基础排序算法:1 冒泡排序package com.sort.base;import com.sort.util.PrintUtil;/** * Created by jack on 2018/3/24. * 冒泡排序 * 1 时间复杂度:T(n)=O(n*n) * 2 空间复杂度:O(n)=O(1) * 算法流程： * 外层循环，遍历迭代次数,变量从...

2018-04-12 16:30:04 1091

原创 java链表面试编程题

通过编码实现日常关于链表可能会遇到到编程题1 两个链表是各自自增的,要求合拼之后的链表满足单调不递减/** * 两个递增的单链表合并保持单调递增 * * 递归求解 * @param firstNode * @param secondNode * @return */public Node mergeNode(Node firstNode,Node secondNode){ ...

2018-04-12 16:22:37 483

原创 java链表高级编程题

通过编码实现单链表稍微复杂点的操作功能:1 查找链表倒数最后的N节点public Node findNodeLastTopN(Node head,int n ){ if(head == null||n<1){ return null; } Node previous = head; Node current = head; for(in...

2018-04-12 16:15:55 286

原创 java链表基本操作

主要通过编码实现单链表的基础操作:1 从头插入节点2 插入链表中指定位置的节点3 根据指定的value来查找节点4 根据指定的节点索引来查询节点5 删除第一个节点6 删除节点指定位置的值7 删除指定索引的节点8 打印列表信息public class Node { public Node next;//指针域 public long data;//数据域 public No...

2018-04-12 16:04:33 745

RocketMQ学习笔记 .pdf

storm企业级运维 调优 实战

空空如也

storm企业级运维调优实战