进入Spark SQL 世界学习笔记
文章平均质量分 55
进入Spark SQL 世界
一角残叶
人生如逆旅,我亦是行人
展开
-
Spark SQL 笔记(1)—— Hive
1 大数据入门学习 Hadoop ,Hive 的使用学习 SparkDataFrame 和 DataSet 在 Spark 框架中的核心地位原创 2018-10-31 22:30:28 · 368 阅读 · 0 评论 -
Spark SQL 笔记(14)——实战网站日志分析(4)代码重构之删除指定日期已有的数据
1 StatDAO.scalapackage com.weblog.cnimport java.sql.{Connection, PreparedStatement}import scala.collection.mutable.ListBuffer/** 各个维度统计 DAO 操作* */object StatDAO { /* * 批量保存 DayVideoAcc...原创 2018-11-15 17:20:35 · 336 阅读 · 0 评论 -
Spark SQL 笔记(9)—— 外部数据源(1) parquet
1 背景方便快速从不同的数据源(json,parquet、rdbms),经过混合处理(json join parquet),再将处理结果以特定的格式(json,parquet) 写回到指定的系统(HDFS,S3)spark.read.format(format),(1) 内置的 format: json,parquet,jdbc,csv(v2+); (2) packages:外部的,http...原创 2018-11-12 17:13:51 · 499 阅读 · 0 评论 -
Spark SQL 笔记(10)——实战网站日志分析(1)
1 用户行为日志介绍1.1 行为日志生成方法NginxAjax1.2 日志内容访问的系统属性:操作系统、浏览器访问特征:点击的 url、从哪个url 跳转过来的(referer)、页面停留时间访问信息: session_id, 访问ip,2 离线数据处理架构数据采集: Flume: web日志写入到 HDFS数据清洗:Spark,hive,mapreduce,清洗后可...原创 2018-11-14 19:57:58 · 735 阅读 · 1 评论 -
Spark SQL 笔记(15)——实战网站日志分析(5)数据可视化
1 常见的可视化框架echartshighchartsd3.jsHUEZeppelin2 创建 Web 项目下载Echarts的文件放到此目录http://echarts.baidu.com/download.html3 饼图测试http://www.echartsjs.com/examples/editor.html?c=pie-simpletest.html...原创 2018-11-16 17:07:20 · 555 阅读 · 0 评论 -
Spark SQL 笔记(16)—— Spark on YARN
1 Spark 的4种运行模式不管使用寿命模式,Spark 应用程序的代码是不变的,只需要在提交的时候通过 --master参数来指定Local,开发时使用Standalone,Spark自带的,如果一个集群是 Standalone ,那么就需要在多台机器同时部署Spark环境;YARN:建议在生产中使用;Mesos1.1 概述Spark 支持可插拔的集群管理模式;对于YAR...原创 2018-11-16 21:02:38 · 918 阅读 · 0 评论 -
Spark SQL 笔记(11)——实战网站日志分析(2)统计结果入库
1 统计结果入库使用 DataFrame API 完成统计分析使用 SQL API 完成统计分析将结果写入 MySQL 数据库1.1 调优点分区字段的数据类型的调整https://spark.apache.org/docs/2.1.3/sql-programming-guide.html#schema-mergingspark.sql.sources.partitionCol...原创 2018-11-15 10:30:56 · 1741 阅读 · 0 评论 -
Spark SQL 笔记(17)—— 项目性能调优
1 集群优化存储格式的选择 ,https://www.infoq.cn/article/bigdata-store-choose压缩格式的选择,https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-compression-analysis/原创 2018-11-17 17:12:16 · 146 阅读 · 0 评论 -
Spark SQL 笔记(18)——spark SQL 总结(1)
1 Spark SQl 使用场景Ad-hoc querying of data in filesLive SQL analytics over streaming dataETL capabilities alongside familiar SQLInteraction with external DatabasesScalable query performance with la...原创 2018-11-17 22:58:34 · 1022 阅读 · 0 评论 -
Spark SQL 笔记(13)——实战网站日志分析(3)按照流量统计TopN
1 创建一张表mysql> create table day_video_traffics_topn_stat (day varchar(8) not null,cms_id bigint(10) not null,traffics bigint(10) not null,primary key (day,cms_id));Query OK, 0 rows affected (...原创 2018-11-15 16:37:46 · 567 阅读 · 0 评论 -
Spark SQL 笔记(12)——实战网站日志分析(3)按照地市统计结果
1 TopNStatJob.scalapackage com.weblog.cnimport org.apache.spark.sql.expressions.Windowimport org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.sql.functions._import scala.co...原创 2018-11-15 16:09:16 · 478 阅读 · 0 评论 -
Spark SQL 笔记(2)——Spark 生态圈和 Hadoop 生态圈对比
1 Spark 产生的背景1.1 MapReduce 的局限性代码繁琐只能够支持map 和 reduce 方法;执行效率低;不适合多次迭代、交互式、流式的处理;1.2 框架多样化批处理(离线):MapReduce,Hive,Pig流式处理(实时):Storm,JStorm,交互式计算:Impala1.3 Hadoop 生态系统1.4 Spark 生态系统(BDAS)...原创 2018-10-31 23:44:08 · 580 阅读 · 0 评论 -
Spark SQL 笔记(3)——Spark 环境搭建
1 local 模式直接运行即可2 Standalone 模式和 Hadoop/HDFS 的架构类似/home/hadoop/apps/spark-2.1.3-bin-2.6.0-cdh5.7.0/conf2.1 spark-env.shSPARK_MASTER_HOST=node1SPARK_WORKER_CORES=1SPARK_WORKER_MEMORY=1gSPARK...原创 2018-11-01 10:28:28 · 581 阅读 · 2 评论 -
Spark SQL 笔记(4)——Spark SQL 介绍
1 Spark SQL 背景介绍1.1 Hive 介绍类似 sql 的 Hive QL 语言, sql -> mapreduce改进: hive on tez,hive on spark, hive on mapreduce1.2 Spark SQL 前世hive on spark -> sharkshark,基于 spark,基于内存的列式存储,与 hive 能够...原创 2018-11-01 12:16:03 · 712 阅读 · 0 评论 -
Spark SQL 笔记(5)—— Hive 到 Spark SQL(1)
1 SQLContext1.1 Spark1.x 中Spark SQL 的入口点:SQLContext参考链接 https://spark.apache.org/docs/1.6.1/sql-programming-guide.html#starting-point-sqlcontext1.2 测试案例1.2.1 新建maven 工程<project xmlns="http:/...原创 2018-11-01 18:39:27 · 214 阅读 · 0 评论 -
Spark SQL 笔记(5)—— Hive 到 Spark SQL(2)
1 SparkSessionpom 文件package com.tzb.demo2import org.apache.spark.sql.SparkSessionobject SparkSessionApp { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appNam...原创 2018-11-01 19:25:51 · 199 阅读 · 0 评论 -
Spark SQL 笔记(6)—— DataFrame和 DataSet
1 DataFrameA Dataset is a distributed collection of data,分布式数据集A DataFrame is a Dataset organized into named columns,以列的形式构成的分布式数据集,按照列赋予不同的名字;1.1 DataFrame 和 RDD 对比1.1.1 RDDjava / scala ->...原创 2018-11-01 23:11:15 · 212 阅读 · 0 评论 -
Spark SQL 笔记(7)—— DataFrame API操作案例
1原创 2018-11-02 21:54:26 · 245 阅读 · 0 评论 -
Spark SQL 笔记(8)—— Dataset 案例
1 概述静态类型(Static-typing) 和运行时类型安全(runtime type-safety)2 测试代码sales.csvtransactionId,customerId,itemId,amoutPaid111,1,1,100.1112,2,2,200.3113,3,3,300.6114,4,4,444.89115,5,5,555.99116,6,6,66...原创 2018-11-02 22:26:33 · 233 阅读 · 0 评论 -
Spark SQL 笔记(19)——spark SQL 总结(2) DataFrame VS SQL
1 DataFrameDataFrame = RDD + SchemaDataFrame is just a type alias for Dataset of RowDataFrame over RDD : Catalyst optimization&schemasDataFrame can handle : Text,JSON,Parquet,…Both SQL and ...原创 2018-11-18 10:17:08 · 216 阅读 · 0 评论