自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 kafka之直连方式

直连方式:import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport kafka.utils.{ZKGroupTopicDirs, ZkUtils}import org.I0Itec.zkclient.Zk...

2018-11-29 15:29:12 1556

原创 sparkStreaming-获取kafka数据并按批次累加

sparkStreaming-获取kafka数据并按批次累加import org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.streaming.dstream.ReceiverInputDStreamimport org.apache.spark.streaming.kafka.KafkaUtils...

2018-11-29 15:28:47 2204

原创 udf和udaf

UDF:计算单词的长度import org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{Row, SparkSession}object udfDemo { def main(args: Array[String]): Unit = { va...

2018-11-29 12:51:45 636

原创 统计所有用户对每个学科的各个模块的访问次数,再取Top3

如有一下的数据: 20161123101523 http://java.learn.com/java/javaee.shtml 20161123101523 http://java.learn.com/java/javaee.shtml 20161123101523 http://ui.learn.com/ui/video.shtml 20161123101523...

2018-11-29 11:25:11 1173

原创 StructuredStreaming

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object StructuredStreamingDemo { def main(args: Array[String]): Unit = { //获取程序入口sparkSession val sparksession = SparkSession...

2018-11-16 00:30:05 277

原创 Redis之统计人物出现的次数

import redis.clients.jedis.Jedis;import java.util.Random;public class SetPlayer { private static Jedis jedis = new Jedis("192.168.88.130",6379); public static void main(String[] args) thr...

2018-11-14 21:00:40 1437

原创 使用list实现生产者消费者

1.生产者:import redis.clients.jedis.Jedis;import java.util.Random;import java.util.UUID;//实现存list类型的数据,模拟生产者public class TaskProducer { private static Jedis jedis = new Jedis("192.168.88.130...

2018-11-14 20:34:51 456

原创 将对象以json的形式写入

1. 首先创建一个Product类,并实现序列化import java.io.Serializable;//将类的对象按照字符串格式存到redispublic class Product implements Serializable{ private String name; private int price; private String desc; ...

2018-11-14 20:27:26 2077

原创 基于hush的模拟类似于购物车的功能-HushDemo

//实现类似于购物车的功能import redis.clients.jedis.Jedis;import java.util.Map;public class HushDemo { private static Jedis jedis = new Jedis("192.168.88.130", 6379); //添加商品,将商品信息保存到散列表里面 public ...

2018-11-14 20:09:54 168

原创 Redis操作String类型

import redis.clients.jedis.Jedis;import redis.clients.jedis.JedisPool;//简单的String类型public class JedisClient { public static void main(String[] args) { /* //创建Redis对象,连接Redis服务器 ...

2018-11-14 20:00:40 208

原创 基于kafka的SparkStraming的WC--SparkStramingKafkaWC

import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.ReceiverInputDStreamimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, Streami...

2018-11-14 19:53:43 322

原创 基于kafka模拟生产者和消费者

zookeeper的启动脚本:#!/bin/shecho "start zookeeper server..."hosts="hadoop0300 hadoop0301 hadoop0302"for host in $hostsdo ssh $host "source /etc/profile; /root/app/zookeeper-3.4.7/bin/zkServer....

2018-11-14 19:43:03 5074 3

原创 基于spark sql 统计爬取到的个网站的一天访问量

数据:import org.apache.spark.sql.{DataFrame, SparkSession}object words1 { def main(args: Array[String]): Unit = { val session = SparkSession.builder().appName("words").master("local[*]").ge...

2018-11-14 19:09:26 878 2

原创 spark streaming中窗口函数的简单实用windowOpObj

import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object windowOpObj { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppN...

2018-11-14 16:47:06 367

原创 基于sparksql的WC

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object sparkSqlWC { def main(args: Array[String]): Unit = { //定义一个sparkSession,getOrCreate相当于单例,如果有SparkSession对象直接使用,没有就直接创...

2018-11-14 16:38:23 441

原创 spark中join的简单操作

(1)RDD之间的joinimport org.apache.spark.sql.SparkSessionobject joinDemo { //BroadcastHashJoin def main(args: Array[String]): Unit = { val sparkSession = SparkSession.builder().appName("join...

2018-11-11 15:38:22 1929 1

原创 spark 求相邻的元素有多少个?

数据:数据 A;B;C;D;B;D;C B;D;A;E;D;C A;B 如上面的数据,A,B有两个 C,D有一个 D,C有两个/*A;B;C;D;B;D;CB;D;A;E;D;CA;B */object Demo2 { def main(args: Array[String]): Unit = { val session = SparkSessio...

2018-11-11 14:59:22 294

原创 基于2.11.8版本的DataFrame的使用sql

 (1)DataFrame使用import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object sparkSqlWC { def main(args: Array[String]): Unit = { //定义一个sparkSession,getOrCreate相当于单例,如果有SparkS...

2018-11-11 14:45:38 560

原创 spark的RDD练习(关于求学生的成绩)

给定数据如下:数据 班级ID 姓名 年龄 性别 科目 成绩 12 张三 25 男 chinese 50 12 张三 25 男 math 60 12 张三 25 男 english 70 12 李四 20 男 chinese 50 12 李四 20 男 math 50 12 李四 20 男 english 50 12 王芳 19 女 chinese 7...

2018-11-11 13:47:12 13821

原创 SparkWordCount和JavaWordCount

(1)SparkWordCountimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject SparkWordCount { def main(args: Array[String]): Unit = { //创建配置信息 val sparkConf...

2018-11-11 13:34:36 1865 2

原创 基于2.10.6版本的DataFrame操作sql

(1)使用反射的方式import org.apache.spark.sql.{DataFrame, SQLContext}import org.apache.spark.{SparkConf, SparkContext}object sprkSql { def main(args: Array[String]): Unit = { val conf = new SparkC...

2018-11-11 13:20:50 230

原创 spark中实现自定义排序

排序的方式可以分为6中:(1)使用一个自定义一个普通的类继承Ordered[User] with Serializableimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object CustomSort1 { //排序规则:首先按照颜值的降序,如果颜值相等,再按照年...

2018-11-11 13:00:13 950

原创 spark streaming中transform过滤广告黑名单

 /*transform操作,应用在DStream上时,可以用于执行任意的RDD到RDD的转换操作。它可以用于实现,DStream API中所没有提供的操作。比如说,DStream API中,并没有提供将一个DStream中的每个batch,与一个特定的RDD进行join的操作。但是我们自己就可以使用transform操作来实现该功能。DStream.join(),只能join其他D...

2018-11-10 08:39:53 444

原创 spark streaming中reduceByKeyAndWindow简单例子

窗口的一些简单操作import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object windowOpObj { def main(args: Array[String]): Unit = { val conf = new SparkCon...

2018-11-10 08:30:44 721

原创 spark streaming中WordCount

通过一些简单的案例,可以知道一些大致的用法1.对每一个批次的数据进行操作:import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spar...

2018-11-10 00:42:23 1031

原创 spark中根据基站位置判断用户家庭工作地址练习

 方式1:常规的RDD操作import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}//(1)使用普通的RDD的方式object user1 { def main(args: Array[String]): Unit = { val conf = new Spa...

2018-11-08 01:24:16 775

原创 spark中ip归属地访问的次数练习

IP地址归属地信息练习用户访问日志信息:**案例需求:**根据访问日志的IP地址计算出访问者的归属地,并且按照省份,计算出访问次数,然后将计算好的结果写入到MySQL**案例实现步骤**1,加载IP地址归属地信息,切分出IP字段和省份信息,(将IP地址转换成十进制,方便于后面快速查找)2,将IP地址和省份信息通过广播缓存到各个节点内存中(Executor中的内存中)3,...

2018-11-07 19:34:26 584

日志分析Spark SQL 的世界

苦苦没有数据的小伙伴这里有些数据,虽然少了一点,但是够用啦

2019-01-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除