spark
史正想
这个作者很懒,什么都没留下…
展开
-
scala模拟数据发送到kafka
import java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord}import org.apache.kafka.common.serialization.StringSerializerimport scala.language.postfixOpsimport scala.util.Random/** * 模拟产生数据,实时发送Kafka Topic中 * 数原创 2021-05-12 18:16:54 · 1061 阅读 · 0 评论 -
schema.UDF
一.定义schema的三种方法//1.编程法(复杂不易维护)val schema = StructType(List(StructField("id",StringType,true),StructField("type",StringType,true),StructField("loation",StringType(List(StructField("lititude",DoubleType,false),StructField("id",StringType,false))),fa原创 2021-05-06 10:05:44 · 119 阅读 · 0 评论 -
Sparksql
Sparksql1 加载文件rdd: sc.testfiledataFrame:spark.read.textdataset:spark.read.textFilepackage chapter5import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object Demo { de原创 2020-10-24 17:06:40 · 234 阅读 · 0 评论 -
spark几大模式
对Spark的认识由于之前接触过Hadoop,对Spark也是了解一些皮毛,但中间隔了好久才重新使用spark,期间也产生过一些错误的认识。之前觉得MapReduce耗费时间,写一个同等效果的Spark程序很快就能执行完,很长一段时间自己都是在本地的单机环境进行测试学习,所以这种错误的认知就会更加深刻,但事实却并非如此,MR之所以慢是因为每一次操作数据都写在了磁盘上,大量的IO造成了时间和资源的浪费,但是Spark是基于内存的计算引擎,相比MR,减少的是大量的IO,但并不是说给一个Spark程序足够的资原创 2020-10-24 16:02:50 · 201 阅读 · 0 评论 -
spark 案例-IP经纬度热力图分析
IP经纬度热力图分析(一) 需求分析在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,并将这样的信息显示在热点图中。因此,我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度、热门城市等指标。接下来我们使用spark来实现上述功能。(二) 数据分析●数据log.formatip.txt●日志数据20190121000132.394251.http.format在ip日志信息中原创 2020-10-23 20:56:59 · 914 阅读 · 2 评论 -
spark stream
SparkStreaming一、SparkStreaming和Storm对比SparkStreaming:时间驱动Storm:数据驱动缺点:storm吞吐量太低了二、SparkStreaming简介底层抽象:DStream:封装了一个时间批次的RDD三、kafka如何保证数据不丢失?这不是一个问题,这是三个问题1、producer端如何保证数据不丢失?2、Broker端如何保证数据不丢失?3、Consumer端如何保证数据不丢失?四、kafka为什么那么快?1、采用pageCac原创 2020-10-22 23:09:22 · 562 阅读 · 0 评论 -
sparkRDD练习超级秘籍(二 )
1、什么是PV值PV(pageview)即页面浏览量或点击量,是衡量一个网站或网页用户访问量。具体的说,PV值就是所有访问者在24小时(0点到24点)内看了某个网站多少个页面或某个网页多少次。PV是指页面刷新的次数,每一次页面刷新,就算做一次PV流量。度量方法就是从浏览器发出一个对网络服务器的请求(Request),网络服务器接到这个请求后,会将该请求对应的一个网页(Page)发送给浏览器,从而产生了一个PV。那么在这里只要是这个请求发送给了浏览器,无论这个页面是否完全打开(下载完成),那么都是应当.原创 2020-10-19 22:33:29 · 159 阅读 · 0 评论 -
spark RDD练习秘籍(一)
给定数据如下:班级ID 姓名 年龄 性别 科目 成绩12 张三 25 男 chinese 5012 张三 25 男 math 6012 张三 25 男 english 7012 李四 20 男 chinese 5012 李四 20 男 math 5012 李四 20 男 english 5012 王芳 19 女 chinese 7012 王芳 19 女 math 7012 王芳 19 女 english 7013 张大三 25 男 chinese 6013 张大三 25 男 math原创 2020-10-19 22:16:00 · 364 阅读 · 0 评论