2018年11月_lv_yishi

原创 kafka之直连方式

直连方式：import kafka.common.TopicAndPartitionimport kafka.message.MessageAndMetadataimport kafka.serializer.StringDecoderimport kafka.utils.{ZKGroupTopicDirs, ZkUtils}import org.I0Itec.zkclient.Zk...

2018-11-29 15:29:12 1556

原创 sparkStreaming-获取kafka数据并按批次累加

sparkStreaming-获取kafka数据并按批次累加import org.apache.spark.{HashPartitioner, SparkConf}import org.apache.spark.streaming.dstream.ReceiverInputDStreamimport org.apache.spark.streaming.kafka.KafkaUtils...

2018-11-29 15:28:47 2204

原创 udf和udaf

UDF:计算单词的长度import org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{Row, SparkSession}object udfDemo { def main(args: Array[String]): Unit = { va...

2018-11-29 12:51:45 636

原创统计所有用户对每个学科的各个模块的访问次数，再取Top3

如有一下的数据： 20161123101523 http://java.learn.com/java/javaee.shtml 20161123101523 http://java.learn.com/java/javaee.shtml 20161123101523 http://ui.learn.com/ui/video.shtml 20161123101523...

2018-11-29 11:25:11 1173

原创 StructuredStreaming

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object StructuredStreamingDemo { def main(args: Array[String]): Unit = { //获取程序入口sparkSession val sparksession = SparkSession...

2018-11-16 00:30:05 277

原创 Redis之统计人物出现的次数

import redis.clients.jedis.Jedis;import java.util.Random;public class SetPlayer { private static Jedis jedis = new Jedis("192.168.88.130",6379); public static void main(String[] args) thr...

2018-11-14 21:00:40 1437

原创使用list实现生产者消费者

1.生产者：import redis.clients.jedis.Jedis;import java.util.Random;import java.util.UUID;//实现存list类型的数据，模拟生产者public class TaskProducer { private static Jedis jedis = new Jedis("192.168.88.130...

2018-11-14 20:34:51 456

原创将对象以json的形式写入

1. 首先创建一个Product类，并实现序列化import java.io.Serializable;//将类的对象按照字符串格式存到redispublic class Product implements Serializable{ private String name; private int price; private String desc; ...

2018-11-14 20:27:26 2077

原创基于hush的模拟类似于购物车的功能-HushDemo

//实现类似于购物车的功能import redis.clients.jedis.Jedis;import java.util.Map;public class HushDemo { private static Jedis jedis = new Jedis("192.168.88.130", 6379); //添加商品,将商品信息保存到散列表里面 public ...

2018-11-14 20:09:54 168

原创 Redis操作String类型

import redis.clients.jedis.Jedis;import redis.clients.jedis.JedisPool;//简单的String类型public class JedisClient { public static void main(String[] args) { /* //创建Redis对象，连接Redis服务器 ...

2018-11-14 20:00:40 208

原创基于kafka的SparkStraming的WC--SparkStramingKafkaWC

import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.ReceiverInputDStreamimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, Streami...

2018-11-14 19:53:43 322

原创基于kafka模拟生产者和消费者

zookeeper的启动脚本：#!/bin/shecho "start zookeeper server..."hosts="hadoop0300 hadoop0301 hadoop0302"for host in $hostsdo ssh $host "source /etc/profile; /root/app/zookeeper-3.4.7/bin/zkServer....

2018-11-14 19:43:03 5074 3

原创基于spark sql 统计爬取到的个网站的一天访问量

数据：import org.apache.spark.sql.{DataFrame, SparkSession}object words1 { def main(args: Array[String]): Unit = { val session = SparkSession.builder().appName("words").master("local[*]").ge...

2018-11-14 19:09:26 878 2

原创 spark streaming中窗口函数的简单实用windowOpObj

import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object windowOpObj { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppN...

2018-11-14 16:47:06 367

原创基于sparksql的WC

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object sparkSqlWC { def main(args: Array[String]): Unit = { //定义一个sparkSession,getOrCreate相当于单例，如果有SparkSession对象直接使用，没有就直接创...

2018-11-14 16:38:23 441

原创 spark中join的简单操作

（1）RDD之间的joinimport org.apache.spark.sql.SparkSessionobject joinDemo { //BroadcastHashJoin def main(args: Array[String]): Unit = { val sparkSession = SparkSession.builder().appName("join...

2018-11-11 15:38:22 1929 1

原创 spark 求相邻的元素有多少个？

数据：数据 A;B;C;D;B;D;C B;D;A;E;D;C A;B 如上面的数据，A,B有两个 C,D有一个 D,C有两个/*A;B;C;D;B;D;CB;D;A;E;D;CA;B */object Demo2 { def main(args: Array[String]): Unit = { val session = SparkSessio...

2018-11-11 14:59:22 294

原创基于2.11.8版本的DataFrame的使用sql

（1）DataFrame使用import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object sparkSqlWC { def main(args: Array[String]): Unit = { //定义一个sparkSession,getOrCreate相当于单例，如果有SparkS...

2018-11-11 14:45:38 560

原创 spark的RDD练习（关于求学生的成绩）

给定数据如下：数据班级ID 姓名年龄性别科目成绩 12 张三 25 男 chinese 50 12 张三 25 男 math 60 12 张三 25 男 english 70 12 李四 20 男 chinese 50 12 李四 20 男 math 50 12 李四 20 男 english 50 12 王芳 19 女 chinese 7...

2018-11-11 13:47:12 13821

原创 SparkWordCount和JavaWordCount

（1）SparkWordCountimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject SparkWordCount { def main(args: Array[String]): Unit = { //创建配置信息 val sparkConf...

2018-11-11 13:34:36 1865 2

原创基于2.10.6版本的DataFrame操作sql

（1）使用反射的方式import org.apache.spark.sql.{DataFrame, SQLContext}import org.apache.spark.{SparkConf, SparkContext}object sprkSql { def main(args: Array[String]): Unit = { val conf = new SparkC...

2018-11-11 13:20:50 230

原创 spark中实现自定义排序

排序的方式可以分为6中：（1）使用一个自定义一个普通的类继承Ordered[User] with Serializableimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object CustomSort1 { //排序规则：首先按照颜值的降序，如果颜值相等，再按照年...

2018-11-11 13:00:13 950

原创 spark streaming中transform过滤广告黑名单

/*transform操作，应用在DStream上时，可以用于执行任意的RDD到RDD的转换操作。它可以用于实现，DStream API中所没有提供的操作。比如说，DStream API中，并没有提供将一个DStream中的每个batch，与一个特定的RDD进行join的操作。但是我们自己就可以使用transform操作来实现该功能。DStream.join()，只能join其他D...

2018-11-10 08:39:53 444

原创 spark streaming中reduceByKeyAndWindow简单例子

窗口的一些简单操作import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object windowOpObj { def main(args: Array[String]): Unit = { val conf = new SparkCon...

2018-11-10 08:30:44 721

原创 spark streaming中WordCount

通过一些简单的案例，可以知道一些大致的用法1.对每一个批次的数据进行操作：import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spar...

2018-11-10 00:42:23 1031

原创 spark中根据基站位置判断用户家庭工作地址练习

方式1：常规的RDD操作import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}//(1)使用普通的RDD的方式object user1 { def main(args: Array[String]): Unit = { val conf = new Spa...

2018-11-08 01:24:16 775

原创 spark中ip归属地访问的次数练习

IP地址归属地信息练习用户访问日志信息：**案例需求：**根据访问日志的IP地址计算出访问者的归属地，并且按照省份，计算出访问次数，然后将计算好的结果写入到MySQL**案例实现步骤**1，加载IP地址归属地信息，切分出IP字段和省份信息，（将IP地址转换成十进制，方便于后面快速查找）2，将IP地址和省份信息通过广播缓存到各个节点内存中（Executor中的内存中）3，...

2018-11-07 19:34:26 584

lv_yishi的博客