浪淘沙

把酒祝东风,且共从容。

排序:
默认
按更新时间
按访问量

SparkStreaming编程实现

1.产生实时流 nc -lk 1234 hello hadoop word hello spark hbase hive hello china ​ 2.MyNetworkWordCount.scala package day10 import org.apache.log4j....

2018-10-14 21:49:47

阅读数:15

评论数:0

SparkStreaming学习笔记

一、Spark Streaming基础       1:什么是SparkStreaming?         (*)Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等...

2018-10-14 21:17:55

阅读数:8

评论数:0

SparkStreaming_Kafka_Redis整合

1.将kafka  streaming 和 redis整合 实现词频统计    Producer.class  生成数据daokafka package day14; /** * 创建一个生产者 生成随机的key 和 字母 * 用于实现实时流统计词频 并 存储到redis */ im...

2018-10-14 20:56:53

阅读数:14

评论数:0

Redis学习笔记

1:redis的简介和特点     (*)前身:Memcached     (*)区别:支持持久化,RDB、AOF                 支持丰富的数据类型    2:安装部署redis           解压缩:            [root@hadoop01 sof...

2018-10-14 20:25:33

阅读数:10

评论数:0

Kafka学习笔记

一、Kafka介绍       1.1简介         Apache Kafka 是分布式发布-订阅消息系统(消息中间件)。它最初由 LinkedIn 公司开发,之后成为 Apache 项目的一部分。Kafka 是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。 ...

2018-10-14 19:46:07

阅读数:14

评论数:0

Flume学习笔记

flume学习笔记 一、什么是Flume?     Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器...

2018-10-14 18:09:11

阅读数:59

评论数:0

KafKa 代码实现

1.消费者 import org.apache.kafka.clients.consumer.ConsumerRecord; import org.apache.kafka.clients.consumer.ConsumerRecords; import org.apache.kafka...

2018-10-12 23:13:27

阅读数:1

评论数:0

SparkCore 编程

1.sparkCore实现wordCount(Idea+scala) import org.apache.spark.{SparkConf, SparkContext} object wordCount { def main(args: Array[String]): Unit = {...

2018-10-12 22:01:03

阅读数:0

评论数:0

Spark工具包

1.ApacheAccessLog 解析下列数据 194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2013/07/rstudio-git3.png HTTP/1.1&q...

2018-10-12 21:52:39

阅读数:2

评论数:0

spark求最受欢迎的老师的问题

文件内容: http://bigdata.edu360.cn/zhangsan http://bigdata.edu360.cn/zhangsan http://bigdata.edu360.cn/lisi http://bigdata.edu360.cn/lisi 1.求最受欢迎的老师,不...

2018-10-12 11:18:39

阅读数:0

评论数:0

Sprak学习--Maven实现之pom.xml配置

<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.ap...

2018-10-12 10:47:12

阅读数:1

评论数:0

Spark 实现两表查询(SparkCore和SparkSql)

项目需求: ip.txt:包含ip起始地址,ip结束地址,ip所属省份 access.txt:包含ip地址和各种访问数据 需求:两表联合查询每个省份的ip数量 SparkCore 使用广播,将小表广播到executor.对大表的每条数据都到小表中进行查找。 package day07...

2018-09-30 11:08:35

阅读数:31

评论数:0

SparkSql学习笔记一

一、SparkSql介绍 1.简介     Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。     为什么要学习Spark SQL?     我们已经学习了Hive,它是将Hive SQL转换成MapRe...

2018-09-30 10:57:13

阅读数:9

评论数:0

Spark Core 学习笔记

SparkCore学习笔记 1:Spark Core:内核,也是Spark中最重要的部分,相当于Mapreduce                 SparkCore 和 Mapreduce都是进行离线数据分析                 SparkCore的核心:RDD(弹性分布式数据集)...

2018-09-29 20:53:09

阅读数:47

评论数:0

Scala学习笔记

大数据框架(处理海量数据/处理实时流式数据)     一:以hadoop2.X为体系的海量数据处理框架         离线数据分析,往往分析的是N+1的数据         - Mapreduce             并行计算,分而治之             - HDFS(分布式存储数据)...

2018-09-27 22:00:50

阅读数:13

评论数:0

Spark实现排序

question: 用spark对数据进行排序,首先按照颜值的从高到低进行排序,如果颜值相等,在根据年龄的升序排序 1.User类继承ordered,并且序列化 package cn.edu360.spark.day06 import org.apache.log4j.{Level, Lo...

2018-09-27 21:22:27

阅读数:17

评论数:0

Hbase学习笔记

一、Hbase简介 1.什么是Hbase     HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。     HBASE的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的...

2018-09-27 17:47:41

阅读数:12

评论数:0

ZooKeeper学习

一、Zookeeper概念简介 1.zookeeper是为别的分布式应用程序提供协调服务的。 2.zookeeper本身就是一个分布式程序,(只要有半数节点存活,就能正常服务。适合奇数节点) 3.提供的服务:主从协调,服务器节点动态上下线,统一配置管理,分布式共享锁,同意名称服务。 4.底...

2018-09-07 21:21:50

阅读数:111

评论数:0

Hive学习

一、什么是hive?          Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 特点: 可扩展 Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。 延展性 Hive支持用户自定义函数,用户可以根据自...

2018-09-03 18:44:14

阅读数:18

评论数:0

MapReduce操作实例

  一、wordcount (1)纯本地运行 要点:有一个combiner方法,可以在执行完map时调用,从而对数据进行先一步的处理,降低Reduce的IO压力。 MapTask.java import java.io.IOException; import org.apache.h...

2018-08-27 18:49:13

阅读数:89

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭