努力成为一名资深大数据选手-CSDN博客

原创 17.redis知识点

一、Redis的简介1.1 NoSql的简介1. NoSql 是Not-Only Sql的简写，泛指非关系型数据库2. 关系型数据库不太适合存储非结构化的大数据(现在的非结构化的数据占比90%)，所以提出了一个新的数据库解决方案，来存储这样的数据。3. NoSql的分类 - 键值对模型的NoSQL：Tokyo Cabinet/Tyrant、Redis、Voldemort、Berkeley DB 应用场景：内容缓存，主要用于处理大量数据的高访问负载优势：快速查询劣势：存储的数据缺少结

2021-03-14 21:22:49 353

原创 16.sparkStreaming知识点

一、StructuredStreaming的简介1.1 为什么要引入StructuredStreamingspark生态系统中的sparkStreaming是一个micro-batch的准实时计算框架，它也需要一个实时计算框架，因此引入了一个新的模块，就是StructuredStreaming.1.2 StructuredStreaming是什么1. StructuredStreaming是一个实时计算框架2. 是一个基于Spark SQL引擎构建的可伸缩的且具有容错性的实时流处理引擎，使用的数

2021-03-14 21:20:17 413

原创 16.redis知识点

一、Redis的简介1.1 NoSql的简介1. NoSql 是Not-Only Sql的简写，泛指非关系型数据库2. 关系型数据库不太适合存储非结构化的大数据(现在的非结构化的数据占比90%)，所以提出了一个新的数据库解决方案，来存储这样的数据。3. NoSql的分类 - 键值对模型的NoSQL：Tokyo Cabinet/Tyrant、Redis、Voldemort、Berkeley DB 应用场景：内容缓存，主要用于处理大量数据的高访问负载优势：快速查询劣势：存储的数据缺少结

2021-03-14 21:18:26 414

原创 15.kafka知识点

一、消息队列的简介1.1 为什么要有消息队列峰值处理能力(消峰能力)：消息系统可顶住峰值流量，业务系统可根据处理能力从消息系统中获取并处理对应量的请求解耦：各系统之间通过消息系统这个统一的接口交换数据，无须了解彼此的存在冗余：部分消息系统具有消息持久化能力，可规避消息处理前丢失的风险扩展：消息系统是统一的数据接口，各系统可独立扩展可恢复性：系统中部分键失效并不会影响整个系统，它恢复会仍然可从消息系统中获取并处理数据异步通信：在不需要立即处理请求的场景下，可以将请求放入消息系统，合适的时候

2021-03-14 21:16:53 411

原创 14.sparkSql知识点

一、sparkcore的复习一. spark的简介 1. spark是scala语言编写的一个计算框架 2. spark是一个快速的，通用的，运行在分布式上的一个大数据集的计算分析框架 3. 快速的原因就是因为spark处理的数据是基于内存存储的（与MR相比的非常重要的区别） 4. spark的组件包括： sparkcore(提供了RDD的通用编程模型), sparksql(交互式编程), sparkStreaming(流式处理), GraphX(图计算), MLlib(机器学

2021-03-14 21:15:26 620

原创 13.sparkCore知识点

一、scala复习1. scala的简介 scala是一个面向对象，函数式的编程语言，运行在jvm上，可以调用java,c++,python等的api。追求优雅，简单。我们学习的是2.11.8的版本。这周要学习的spark2.2.3版本是基于scala-2.11.8的2. scala的安装（和安装jdk是一样的） - windows平台： (1)可以下载xxx.msi或者是xxx.zip包进行安装。 (2)然后配置环境变量:SCALA_HOME和PATH - linux平台 (1)

2021-03-14 21:13:29 420

原创 12.scala知识点

一、Scala的简介1.1 scala的简介1. Martin Odersky在2001年开始设计的，Java平台的Scala于2003年底/2004年初发布。2. Scala名字由来：Scalable Language两个单词相结合；意大利语中 scala意为“梯子”或“楼梯”，蕴含“更佳的编程语言”。 3. 设计目标是将面向对象、函数式编程和强大的类型系统结合起来，让人要能写出优雅、简洁的代码。1.2 scala的特点1. 具有面向对象的特点2. 具有函数式编程的特点3. 具有静态类型

2021-03-14 21:09:12 475

原创 11.数仓知识点

一数据仓库的定义和作用1.1 数据仓库的定义1. 数据仓库是有bill inmon提出的概念2. 数据仓库是一种面向主题的，集成的，相对稳定(不可变更)的，反映历史变化的数据集合。3. 数据仓库是用于支持领导管理决策或者是信息的全局共享4. 可以为数据分析，数据挖掘，机器学习提供数据支持1.2 数据仓库的作用1. 整合公司所有业务数据，建立统一的数据中心2. 产生业务报表，用于作出决策3. 为网站运营提供运营上的数据支持4. 可以作为各个业务的数据源，形成业务数据互相反馈的良性循环

2021-03-14 21:07:53 944

原创 10.azkaban知识点

一 azkaban的简介1.1 调度系统背景1. 一个完整的大数据分析系统通常都是由大量任务单元组成：shell脚本程序，mapreduce程序、hive脚本、spark程序等。2. 各任务单元之间存在时间先后及前后依赖关系:先后关系、依赖关系、定时执行。3. 为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行。任务流程图：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4lkhfrcy-1615727073194)(azkaban_note.a

2021-03-14 21:05:42 1053

原创 9.数据采集与监控知识点

一、项目介绍1.1 项目规划......1.2 数据采集&监控的项目架构1）架构一（我们要使用的）[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XrFLwiT5-1615386415987)(%E9%A1%B9%E7%9B%AE%E9%87%87%E9%9B%86%E5%92%8C%E7%9B%91%E6%8E%A7%E9%A1%B9%E7%9B%AE%E7%AC%94%E8%AE%B0.assets/image-20201102111044050.png

2021-03-10 22:27:39 1800

原创 8.Nginx知识点

一 Nginx的简介1.1 简介Nginx (engine x) 是一个高性能的HTTP和反向代理web服务器，同时也提供了IMAP/POP3/SMTP服务。Nginx是由伊戈尔·赛索耶夫为俄罗斯访问量第二的Rambler.ru站点开发的，第一个公开版本0.1.0发布于2004年10月4日。因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。2011年6月1日，nginx 1.0.4发布。Nginx是一款轻量级的Web 服务器/反向代理服务器及电子邮件（IMAP/POP3）代理服务

2021-03-10 22:22:37 401

原创 7.sqoop知识点

一、复习flume1. flume的简介 - flume是apache基金会旗下的一款项目 - flume用于采集数据，通常采集的是行为数据（日志文件）（结构上分类：结构化数据，半结构化的数据，非结构化的数据采集数据的种类进行分类：行为数据(日志文件)，业务数据，内容数据，第三方数据源） - flume具有的特点：分布式的，可靠性的，高可用的等 2. flume的体系结构 - 运行单元是agent, agent至少包含一个source,一个channel，一个sink -

2021-03-10 22:20:26 389

原创 6.flume知识点

一、大数据项目简介1.1 整个学习周期的项目1. 数据采集和监控系统2. 准实时数据仓库建设和用户画像工程实战3. 推荐系统4. 实时数仓建设1.2 数据采集和监控系统的简介1.2.1 学习目标旨在让学员理解实际生产环境中数据从何而来，如何针对不同的场景设计不同的数据采集方案，同时如何监控数据采集流程中各个指标的定义和监控，不要让数据在黑盒子中流转。在学习项目中进一步掌握基础课中的组件在真实场景中的运用和变通，能够学以致用，针对场景设计架构1.2.2 技术框架1. nginx2.

2021-03-10 22:19:21 349

原创 5.hbase知识点

day01—————一、Hbase的概述1.1 Hbase是什么(1) Hbase是apache旗下的一个开源的，分布式的，可扩展的，“面向列式存储”，非关系型的数据库(NoSql)(2) Hbase的开发灵感来源于google的《big table》论文，实现的编程语言是java(3) Hbase的设计目标是存储数十亿行x上百万列(4) Hbase的存储是基于HDFS的(5) Hbase是Hadoop数据库，功能是存储，而hive是用于分析和计算的(6) Hbase提供了近似实时读写功能，

2021-03-10 22:16:50 492

原创 4.hive知识点

一、复习1.1 Linux- linux的安装- 基本命令- 相对路径和绝对路径- 重定向符号：> 和 >> - 管道符号：|- VIM/VI编辑器- 高阶命令- 软件管理- 克隆- 免密登录认证（重点）- 静态IP的管理（重点）- 服务的管理- 时间同步（重点）- shell（重点）1.2 HDFS- 大数据的概念（1）概念（2）特征（3）大数据工作流程： -1）数据采集：数据源的分类有行为数据(日志文件)、业务数据(RDBM

2021-03-10 22:15:30 759

原创 3.Mapreduce知识点

day01—————一个完整的SQL语句 select distinct...from...[join]...[where...][group by...][having...][order by....][limit..] [union all]SQL子句的运行顺序： (1) from leftTable (2) on 条件 (3) [left|inner|right] join rightTable (4) where 子句 (5) group

2021-03-10 22:13:25 744

原创 2.zookeeper知识点

day01—————零、复习1. 大数据的概述 --概念和特征（重点）2. hadoop的概述 --hadoop的核心模块（重点）：三个，HDFS,Mapreduce,Yarn --google的三篇论文（重点）：《GFS》《Mapreduce》《Bigtable》 --Hadoop的特点： apache，开源，免费，JAVA语言，跨平台性，运行在廉价机器，具有高可靠高容错性，扩展性良好3. Hadoop的安装 --本地模式 --伪分布式模式 --完全分布式模式（重点）4.

2021-03-10 22:10:57 395

原创 1.hadoop知识点

day01——————一、Linux复习一、Linux的概念和安装 1. Linux是什么操作系统，开源，免费，多用户，多进程，多cpu,性能稳定... 2. linux的安装二、Linux的命令 1. 最常用的三个： pwd： cd: ls： 2. 文件处理命令 touch mkdir mv: 移动文件或目录，有更名的效果 cp: 复制文件或目录，有更名的效果 rm: 删除文件或目录 3. 文件查看命令 cat more less h

2021-03-10 22:01:23 781

原创将数据进行广播代码案例

//1.val saprk: SparkSession = SparkSession.builder().master(“local”).appName(“test”).getOrCreate()//读取数据进行广播val filed=saprk.sparkContext.textFile(“data\app_dict.txt”).filter(_.split("\t").length>=5).map(t=>{val arr=t.split("\t")(arr(4),arr(1).

2021-01-20 19:07:39 113

原创广播变量

2021-01-20 15:15:58 131

原创过滤日志

//过滤日志。只留下WARN以上级别的Logger.getLogger(“org”).setLevel(Level.WARN)

2021-01-19 15:47:01 153

原创客户端发送HTTP请求案例

/** * 发送HTTP请求工具类 */object AmapUtil {def main(args: Array[String]): Unit = {//1.val url=“https://restapi.amap.com/v3/geocde/regeo?location=116.310003,39.991957&key=94feff67a3b99ae4f15bd801b7f8508f”//2.val client: CloseableHttpClient = HttpClie.

2021-01-19 15:34:16 282

原创 hudi同步到hive的数据问题

使用： /opt1/app/history-data/action-history -b node1:9092 -sd2021-01-02 -ed 2021-01-06 -t news203 造数时，如果第一次造数的量时1000条，那么同步到hive表也是1000条，最大值就是1000条。如果第二次造数小于最大值，数据就添加不进去，所以还是1000条，如果第三次造数是1500条，你就会在hive中看到有数据增加了，我遇到的问题就是：为什么有时候添加发现数据还是没变，嗯嗯，就是上面的原因，.

2021-01-09 16:46:41 1286

原创 rdd

2021-01-08 20:39:37 87

原创实时项目-漏斗分析

我们漏斗分析中定义的需求如下：注册-> 点击新闻-> 进入详情页-> 发布评论转换成事件：SignUp -> AppClick[element_page=‘新闻列表页’] ->AppClick[element_page=‘内容详情页’]->NewsAction[action_type=‘评论’]接下来我们用SQL实现这个需求：我们来查询 20201227到20201230 事件范围内，并且窗口时间是3天的漏斗注意：我们这里数据就三天，所以窗口期也就是不用判.

2021-01-04 17:52:40 481

原创 hive中的多维函数:

1.grouping sets()2.rollup3.cubeimport org.apache.spark.sql.{DataFrame, SparkSession}object Sss { def main(args: Array[String]): Unit = {val session: SparkSession = SparkSession.builder().appName(“a”).master(“local[*]”).getOrCreate()val list=List.

2020-12-29 19:42:34 264

原创 spark-sql写法

2020-12-27 21:11:02 146

原创 redis集群创建时的错误及解决方法

1. 创建时报错redis-trib.rb create --replicas 0 192.168.10.99:7001192.168.10.99:7002 192.168.10.99:7003Creating cluster [ERR] Sorry, can’t connect to node 192.168.56.101:7001解决：要在每个节点的目录下启动服务：[root@node1 7001]# redis-server redis.conf [root@node1 7002]#

2020-12-19 16:53:32 871 1

原创使用sparkSql处理数据--离线数据（周考题）

1.问题：统计log数据，过滤不符合规则数据（未写薪资，格式不合要求）统计年薪岗位占总岗位的比例？统计各个省市的月平均薪资和岗位数量（薪资取最高，例如1-1.5万，取1.5万）？统计薪资（薪资取最高，例如1-1.5万，取1.5万）超过2万的岗位数量2.代码实现：object Test01 { def main(args: Array[String]): Unit = { //去掉多余的log Logger.getLogger("test").setLevel(Leve

2020-12-12 20:10:44 795

原创 1.实时项目

1、项目简介1.1 项目背景监控某APP官网的用户行为日志，然后使用对应的服务器接受数据，在对数据进行Spark分析，统计出哪些是爬虫数据，哪些是好的数据，然后进行行为数据监控即可。1.2 系统功能模块数据采集模块、流程管理模块、策略管理模块、规则管理模块、实时监控模块、可视化模块1.3 逻辑架构1.4 物理架构（重点掌握）1.5 功能描述对系统性能的数据监控、实时统计各链路流量连接数、实时计算指标等注：链路就是服务器的意思1.6 技术选型Hadoop2.7.6、S

2020-12-12 15:46:01 561

原创 trigger：使用structuredStreaming实时计算

使用triggerpackage com.qf.sparkstreaming.day04import org.apache.spark.sql._import org.apache.spark.sql.streaming.Trigger/** * trigger函数： * sparkStreaming是一个准实时的计算框架，微批处理 * structuredStreaming是一个实时的计算框架，但是底层使用的sparksql的api， * 并且是sparkStreamin

2020-12-09 22:19:45 581

原创 kafka生产数据--＞api接收--＞处理(使用Structure)--＞api把结果保存到mysql上

注意：mysql中的表要提前存在package com.qf.sparkstreaming.day04import java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.spark.sql.streaming.OutputModeimport org.apache.spark.sql.{DataFrame, Dataset, ForeachWriter, Row, SparkSession}obj.

2020-12-09 22:17:16 153

原创 kafka生产数据--＞api接收--＞处理(使用Structure)--＞api把结果保存到kafka中

package com.qf.sparkstreaming.day04import org.apache.spark.sql.{DataFrame, SparkSession}object _05SinkKafka { def main(args: Array[String]): Unit = { val session: SparkSession = SparkSession.builder().appName("test1").master("local[*]").get

2020-12-09 22:14:45 188

原创 kafka生产数据--＞api接收--＞处理(使用Structure)--＞api把结果写到hdfs上

kafka生产数据–>api接收–>处理(使用Structure)–>api把结果写到hdfs上package com.qf.sparkstreaming.day04import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}object _04SinkHdfs { def main(args: Array[String]): Unit = { val session: SparkSess.

2020-12-09 22:12:36 154

原创 kafka-structure使用读取Kafka的数据(json格式的)到structure中处理然后输出到控制台

package com.qf.sparkstreaming.day04import org.apache.spark.sql.streaming.OutputModeimport org.apache.spark.sql.types.{DataTypes, StructType}import org.apache.spark.sql.{DataFrame, SparkSession}/** { "devices": { "cameras": { "devic

2020-12-09 22:08:24 604

原创 SparkSql-redis：将查询到的结果保存到redis中

2020.12.08号作业题1.启动redisredis-server /usr/local/redis/redis.conf2.写代码问题1.计算出总的成交量总额（结果保存到redis中）问题2.计算每个商品分类的成交量（结果保存到redis中）问题3.计算每个省份的成交总额（结果保存到redis）object Work { def main(args: Array[String]): Unit = { Logger.getLogger("org").setLevel.

2020-12-08 21:59:38 1167 1

原创 8.sparkStreaming-使用redis kv数据库来维护kafka的主题分区的offset

package com.qf.sparkstreaming.day02import java.utilimport java.util.Propertiesimport org.apache.commons.pool2.impl.GenericObjectPoolConfigimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartitionimport org

2020-12-07 22:18:38 147

原创 7.SparkStreaming-在线黑名单过滤-(不是我写的)

package com.qf.sparkstreaming.day02import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}

2020-12-07 21:52:21 342

原创 pom坐标

1.sparkStreaming <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2.2.3</version> &l

2020-12-07 21:06:44 165

原创 6.SparkStreaming-屏蔽黑名单

说明：屏蔽黑名单…package com.qf.sparkStreaming.day02import org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.st

2020-12-07 21:01:21 176

空空如也

空空如也