Spark
文章平均质量分 87
Allen-Gao
这个作者很懒,什么都没留下…
展开
-
Spark的WordCount练习(一)
打开IntelliJ IDEA软件,新建maven项目,具体目录如下:pom.xml文件配置如下:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocatio原创 2018-01-24 09:38:43 · 288 阅读 · 0 评论 -
SparkStreaming通过Flume获取数据(单机,push和poll两种方式)的实现
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。1、第一种方式,通过push的方式读取数据。首先在一台虚拟机上安装flume1.8.0,vi /etc/profile,添加配置信息# flume-1.8....原创 2018-02-12 11:51:19 · 427 阅读 · 0 评论 -
利用NetCat实现sparkstreaming按批次累加小练习
netcat是网络工具中的瑞士军刀,它能通过TCP和UDP在网络中读写数据。netcat所做的就是在两台电脑之间建立链接并返回两个数据流,通过与其他工具结合和重定向,你可以在脚本中以多种方式使用,你能建立一个服务器,传输文件,与朋友聊天,传输流媒体或者用它作为其它协议的独立客户端。 首先在centos7上安装netCat,联网情况下运行命令yum install nmap-ncat....原创 2018-02-11 15:43:03 · 858 阅读 · 0 评论 -
Spark项目练习(计算用户访问学科子网页的top3)
项目说明:附件为要计算数据的demo。点击打开链接利用spark的缓存机制,读取需要筛选的数据,自定义一个分区器,将不同的学科数据分别放到一个分区器中,并且根据指定的学科,取出点击量前三的数据,并写入文件。具体程序如下:1、项目主程序:package cn.allengao.Locationimport java.net.URLimport org.apache.spark原创 2018-01-30 11:27:15 · 1451 阅读 · 0 评论 -
Spark项目练习(计算用户停留时间最长的两个小区)
项目说明:附件为要计算数据的demo。点击打开链接其中bs_log文件夹数据格式为(手机号,时间戳,基站ID,连接状态(“1”为连接,“0”为断开))lac_info.txt 文件数据格式为(基站ID,经度,纬度,信号辐射类型)程序思路:1, 先根据"手机号,基站ID"构成一个元祖,做为唯一标识, 和时间戳构成新的数据结构->(手机号, 站点, 时间戳)2、(手机号,基站ID)原创 2018-01-29 17:14:08 · 1103 阅读 · 0 评论 -
编程的两种方式执行Spark SQL查询(方式二)
现在我们来实现在自定义程序中编写Spark SQL查询程序。实现查询的方式有两种:方式一:通过反射推断schema。方式二:通过structtype直接指定schema。这次我们用方式二来实现自定义查询。具体程序如下:package cn.allengao.sparksqlimport org.apache.spark.{SparkConf, SparkContex原创 2018-02-05 17:35:15 · 632 阅读 · 1 评论 -
编程的两种方式执行Spark SQL查询(方式一)
现在我们来实现在自定义程序中编写Spark SQL查询程序。实现查询的方式有两种:方式一:通过反射推断schema。方式二:通过structtype直接指定schema。我们先用方式一来实现自定义查询。首先创建一个team.txt文件,内容有5列,分别是id,球队名称,综合值,进攻值,防守值。部分数据如下:1,火箭,94,95,932,马刺,95,96,94原创 2018-02-05 16:50:13 · 2060 阅读 · 0 评论 -
基于Spark2.0搭建Hive on Spark环境(Mysql本地和远程两种情况)
原创 2018-02-09 10:09:46 · 850 阅读 · 0 评论 -
Spark高级算子练习(二)
package cn.allengao.exerciseimport org.apache.spark.{SparkConf, SparkContext}object SparkRDDtest3 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("SparkRDDTes原创 2018-01-26 17:03:21 · 370 阅读 · 0 评论 -
Spark高级算子练习(一)
package cn.allengao.exerciseimport org.apache.spark.{SparkConf, SparkContext}object SparkRDDTest2 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("SparkRDDTes原创 2018-01-26 10:12:27 · 919 阅读 · 0 评论 -
Spark项目练习(实现自定义排序)
在实际操作中,sortBy算子往往不能满足数据多种排序的需求,这就需要我们使用自定义排序来实现,以下是实现简单的自定义排序的两种方法,起到抛砖引玉的作用。第一种方法:(Ordered:自定义一个函数)package cn.allengao.IpSearchimport org.apache.spark.{SparkConf, SparkContext}/** * class_name原创 2018-02-02 15:48:42 · 267 阅读 · 0 评论 -
Spark项目练习(根据规则库统计地区用户访问量,写入数据库)
项目说明:附件为要计算数据的demo。点击打开链接分析用户访问数据,将访问IP计算分析,根据规则库,统计出各省份的访问量。其中,用到知识点:1、常用算法二分法。2、IP地址转换成10进制数的简单算法。3、spark对Mysql数据库的操作。具体程序如下:package cn.allengao.Locationimport java.sql.{Connection, Date原创 2018-02-01 09:06:43 · 633 阅读 · 0 评论 -
Spark常用算子练习
package cn.allengao.exerciseimport org.apache.spark.{SparkConf, SparkContext}/** * class_name: * package: * describe: SparkRDD算子练习 * creat_user: Allen Gao * creat_date: 2018/1/25 * cre原创 2018-01-25 15:28:59 · 905 阅读 · 0 评论 -
Spark的WordCount练习(二)
Spark集群运行WordCount程序,程序基本同练习(一),区别在于注释//.setMaster("local[*]"),改为集群运行,将注释打开,res.saveAsTextFile(args(1)),保存结果到文件,具体程序如下:package cn.allengao.hellosparkimport org.apache.spark.rdd.RDDimport org.原创 2018-01-24 11:45:16 · 314 阅读 · 0 评论 -
SparkStreaming通过Kafka获取数据(Receiver方式)
Kafka是一种高吞吐量的分布式发布订阅消息系统,有如下特性:1、通过O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。2、高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。3、支持通过Kafka服务器和消费机集群来分区消息。4、支持Hadoop并行数据加载。相关术语介绍:BrokerKafka集群包含一个或多个服务器,这种服务...原创 2018-02-12 17:26:04 · 729 阅读 · 0 评论