大数据相关
记录本人学习Hadoop、Spark、Flink及周边组件过程中的知识点,心得体会,错误和解决办法等
Yu.Zhansheng
请大家多多指教!
展开
-
SparkSQL实战8——综合实战完成日志分析4
需求、按流量统计主站最受欢迎的TopN课程并保存到MySQL创建一张表:create table day_video_traffics_topn_stat(day varchar(8) not null,cms_id bigint(10) not null,traffics bigint(20) not null,primary key (day,cms_id));创建一个...原创 2019-03-12 18:17:00 · 325 阅读 · 3 评论 -
SparkSQL实战7——综合实战完成日志分析3
需求:按地市统计主站最受欢迎的TopN课程 //按照地市进行统计TopN课程 def cityAccessTopNStat(spark:SparkSession,accessDF:DataFrame):Unit = { //使用DataFrame方式进行统计 import spark.implicits._ val cityAcce...原创 2019-03-12 17:45:42 · 241 阅读 · 0 评论 -
SparkSQL实战6——综合实战完成日志分析2
需求、统计最受欢迎的topN课程import org.apache.spark.sql.{DataFrame, SparkSession}import org.apache.spark.sql.functions._/** * @author YuZhansheng * @ desc * @ create 2019-03-11 14:58 */object TopN...原创 2019-03-12 12:06:33 · 229 阅读 · 0 评论 -
SparkSQL实战5——综合实战完成日志分析1
1、离线处理架构图:2、数据处理流程:数据采集:使用Flume采集web日志信息到HDFS中去 数据清洗:将脏数据清理,使用Spark、hive、MapReduce等分布式计算框架 数据处理:按照我们的需要进行相应业务的统计和分析,使用Spark、hive、MapReduce等分布式计算框架 处理结果入库:调用API,将结果存放到RDBMS,NoSQL中去; 数据可视化:通过图...原创 2019-03-11 11:22:57 · 994 阅读 · 6 评论 -
SparkSQL实战4——外部数据源API
1、产生背景每一个Spark应用程序往往都会以加载一个数据源开始,保存数据结束。为了让用户可以方便地从不同的数据源(json、parquet、rdbms),经过混合处理(json join parquet)再将处理结果以特定的格式(json、parquet)写回到指定的系统(HDFS、S3等)上去,SparkSQL1.2引入了外部数据源API。2、操作Parquet数据Parquet是...原创 2019-03-07 10:48:54 · 254 阅读 · 0 评论 -
SparkSQL实战3——DataFrame和Dataset
1、前言DataFrame并不是Spark最新提出使用的,DataFrame最早是在R、Python语言中使用的。Dataset是一个分布式的数据集;而DataFrame是一个以列(包括列名、列的类型、列值)的形式构成的分布式数据集,并且按照列赋予不同的名称。在概念层次上,我们可以把DataFrame理解为关系型数据里面的一张表。DataFrame可以通过结构化的数据创建,或者通过Hive...原创 2019-03-06 16:00:43 · 431 阅读 · 0 评论 -
SparkSQL实战2——先了解几个基础知识
前言:Spark的用户有三种不同的API可以与分布式数据集合进行交互:RDD API、DataFrame API、Dataset API。传统的RDD API提供了类型安全和功能强大的lambda函数,但是没有对性能进行优化。Dataset API和DataFrame API提供了更简单的方法来使用领域特定的语言,并且提供了优于RDD的性能。Dataset API将RDD和DataFrame组合在...原创 2019-03-04 16:13:05 · 1569 阅读 · 0 评论 -
SparkSQL实战1——先从Hadoop开始说起
1、Hadoop概述广义的Hadoop,指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,狭义的Hadoop指的是Hadoop框架,Hadoop框架是Hadoop生态系统最重要最基础的一个部分,生态系统中的每一子系统只解决某一特定的问题域,不搞统一型的全能系统,而是小而精的多个小系统。Flume:日志收集工具,它将数据从产生、传输、处理并最终写入目标的路径的过程抽象为...原创 2019-03-01 17:02:19 · 608 阅读 · 0 评论 -
Hadoop安装配置文件(超级详细)
1. 创建虚拟机、安装CentOS6.5操作系统(此过程省略);2. 将虚拟机克隆三个;3. 把克隆出来的三个虚拟机修改主机名;vi /etc/sysconfig/network4. 配置网卡:vi /etc/sysconfig/network-scripts/ifcfg-eth0注意:在VMware里克隆出来的CentOS Linux,开机执行命令:ifconfig...没有看到eth0...原创 2018-03-25 13:26:11 · 1355 阅读 · 1 评论