自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 2021-02-26~27~28 大数据课程笔记 day37day38day39

@R星校长音乐数据中心平台1.1 数据库与ER建模1.1.1 数据库(DataBase)数据库是按照数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合,可视为电子化的文件柜,存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作,数据组织主要是面向事务处理任务。1.1.2 数据库三范式关系型数据库设计时,遵照一定的.

2021-02-28 23:45:16 723 2

原创 2021-02-25 大数据课程笔记 day36

@R星校长Spark第八天【SparkStreaming内容】主要内容Kafka应用场景Kafka分布式消息系统原理Kafka集群搭建Kafka 操作命令Kafka Leader 均衡机制SparkStreaming与Kafka整合学习目标第一节 Kafka 介绍kafka是什么?使用场景?Kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步.

2021-02-25 18:50:21 59

原创 2021-02-24 大数据课程笔记 day35

@R星校长Spark第七天【SparkSQL+SparkStreaming内容】主要内容SparkSQL开窗函数SparkSQL案例SparkStreaming&Strom区别SparkStreaming读取Socket数据SparkStreaming算子SparkStreaming Driver HA学习目标第一节 SparkSQL开窗函数开窗函数注意:row_number()开窗函数是按照某个字段分组,然后取另一字段的前几个的值,相当于 分组取topN,在MySq.

2021-02-24 18:42:07 11

原创 2021-02-23 大数据课程笔记 day34

@R星校长Spark第六天【SparkSQL内容】主要内容SparkSQL的演变过程Spark on Hive & Hive on SparkSparkSQL DataFrame创建DataFrame的方式Spark on Hive自定义函数UDF & UDAF开窗函数学习目标第一节 SparkSQL 介绍1. SharkShark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive.

2021-02-23 18:31:32 38

原创 2021-02-22 大数据课程笔记 day33

@R星校长Spark 第五天【SparkCore 内容】主要内容广播变量和累加器Spark webui 界面Spark 历史日志服务器配置Spark MasterHASpark ShuffleSpark Shuffle 文件寻址Spark 内存管理Spark Shuffle 优化第一节 Spark 广播变量和累加器广播变量广播变量理解图广播变量使用val conf = new SparkConf()conf.setMaster("local").setAppN.

2021-02-22 18:15:48 33 2

原创 2021-02-21 大数据课程笔记 day32

@R星校长Spark 第四天【SparkCore 内容】主要内容Spark Master 启动源码Spark Submit 任务提交源码Spark Driver 启动源码Spark Application 注册并分配资源Spark 资源调度结论Spark 任务调度Spark 二次排序问题Spark 分组取 topN 问题学习目标第一节 Spark Master 启动Spark 资源任务调度对象关系图集群启动过程Spark 集群启动之后,首先调用 $SPARK_HOME/.

2021-02-21 10:45:18 41

原创 2021-02-20 大数据课程笔记 day31

@R星校长Spark 第三天【SparkCore内容】主要内容Spark-Core中的术语RDD的宽窄依赖Spark Stage & Spark计算模式Spark资源调度和任务调度Spark补充算子Spark PV&UV 案例Spark-Submit提交参数学习目标第一节 术语与宽窄依赖术语解释窄依赖和宽依赖RDD 之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。窄依赖父 RDD 和子 RDD partition 之间的关系是一对一的。或者父 R.

2021-02-20 18:11:50 17 2

原创 2021-02-19 大数据课程笔记 day30

@R星校长Spark第二天【SparkCore内容】主要内容Spark集群搭建Spark Spark Pi任务提交Spark on Yarn 配置Spark基于Standalone任务提交两种模式Spark基于Yarn任务提交两种模式Spark部分Transformation算子Spark部分Action算子学习目标第一节 Spark 集群搭建Standalone 集群搭建与 Spark on Yarn 配置 StandaloneStandalone 集群是 Spark.

2021-02-19 18:46:20 12

原创 2021-02-18 大数据课程笔记 day29

@R星校长Spark 第一天【 SparkCore 内容】主要内容Spark 概念Spark 技术栈内容Spark 与 MapReduce 区别Spark 运行模式Spark Java-Scala 混编 Maven 项目创建Spark 核心 RDDSpark 代码流程Spark 部分算子Spark 持久化算子学习目标第一节 Spark 初始什么是 SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是UC Berkeley A.

2021-02-18 15:42:41 38

原创 2021-02-17 大数据课程笔记 day28

@R星校长Scala第二天【Scala内容】主要内容Scala 迭代器模式处理数据ScalaTrait 特质特性Scala 模式匹配Scala 偏函数Scala 样例类Scala 隐式转换Scala Actor 通信模型Spark WordCount学习目标第一节 Scala 迭代器模式 + Trait 特质特性Scala迭代器模式处理数据scala 中创建集合需要内存,集合与集合之间的转换时,每次转换生成新的集合时,新的集合也需要内存。如果有一个非常大的初始集合,需要经过.

2021-02-17 10:56:33 49

原创 2021-02-16 大数据课程笔记 day27

@R星校长Scala 第一天【Scala内容】主要内容Scala介绍Scala安装使用Scala数据对象Scala类和对象Scala流程控制Scala方法与函数Scala字符串Scala集合学习目标第一节 Scala介绍为什么学习Scala语言Scala 是基于JVM 的语言,与 java 语言类似,Java 语言是基于 JVM 的面向对象的语言。Scala 也是基于 JVM ,同时支持面向对象和面向函数的编程语言。这里学习 Scala 语言的原因是后期我们会学习一个优.

2021-02-16 22:48:07 32

原创 2021-02-15 大数据课程笔记 day26

@R星校长Python 教程 day02第七章 类和对象面向对象编程介绍  面向对象编程——Object Oriented Programming,简称 OOP,是一种程序设计思想。OOP 把对象作为程序的基本单元,一个对象包含了数据和操作数据的函数。面向对象是一种对现实世界理解和抽象的方法。  “面向过程” (Procedure Oriented) 是一种以过程为中心的编程思想。“面向过程”也可称之为“面向记录”编程思想,他们不支持丰富的“面向对象”特性(比如继承、多态、封装),并且它们不允许.

2021-02-15 22:12:33 188

原创 2021-02-14 大数据课程笔记 day25

@R星校长Python教程第一章Python的介绍python介绍一种面向对象,面向函数的解释型计算机程序设计语言,由荷兰人Guido van Rossum(龟叔)于1989年发明,第一个公开发行版发行于1991年。Python是纯粹的自由软件, 源代码和解释器 CPython 遵循 GPL(GNU General Public License) 协议[2]. Python 语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。Python 具有丰富和强大的库。它常被昵称为胶.

2021-02-14 21:59:54 227 1

原创 2021-02-13 大数据课程笔记 day24

@R星校长Lucene 与 ElasticSearch 概述Lucene 全文检索Lucene 概述Lucene 是一个全文搜索框架,而不是应用产品。因此它并不像http://www.baidu.com/ 或者 google Desktop 那么拿来就能用,它只是提供了一种工具让你能实现这些产品。lucene 能做什么 :本质就是给搜索内容定位要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你.

2021-02-13 21:52:40 657

原创 2021-02-12 大数据课程笔记 day23

@R星校长redis 概述为什么使用 redis?什么是 Redis?Redis是用C语言开发的一个开源的高性能键值对(key-value)内存数据库。它提供六种数据类型来存储值:string 字符串类型、hash 散列类型、list 列表类型、set 集合类型、zset(SortedSet) 有序集合类型、stream 流类型。它是一种 NoSQL 数据库。Redis 历史发展2008 年,意大利的一家创业公司 Merzia 推出了一款基于 MySQL 的网站实时统计系统 LL.

2021-02-12 16:59:23 141

原创 2021-02-11 大数据课程笔记 day22

第3天 离线项目-3 新增用户数据处理时间维度浏览器维度平台维度KPI 一个工具维度通过以上四个维度的各种组合,计算它的新增用户指标课程大纲项目模块设计思路新增用户指标 mapper 开发新增用户指标 reducer 开发新增用户指标 Runner 开发MapReduce 结果存 MySQL新增用户指标运行结果hbaseuuid,servertime,browser,platform,kpi事件 lanuch 时间 浏览器 平台 kpi 模块 时间

2021-02-11 20:44:57 270 1

原创 2021-02-10 大数据课程笔记 day21

@R星校长离线项目第二天flume sinksHDFS Sink (使用较多)属性名称默认值说明channel-type-组件类型名称,必须是hdfshdfs.path-HDFS路径,如hdfs://mycluster/flume/mydatahdfs.filePrefixFlumeDataflume在hdfs目录中创建文件的前缀hdfs.fileSuffix-flume在hdfs目录中创建文件的后缀。hdfs.inUsePr.

2021-02-10 18:41:23 40

原创 2021-02-08/09 大数据课程笔记 day19day20 某大型网站日志分析离线系统

@R星校长某大型网站日志分析离线系统项目需求分析概述该部分的主要目标就是描述本次项目最终七个分析模块的界面展示。工作流  在我们的 demo 展示中,我们使用 jquery+echarts 的方式调用程序后台提供的 rest api 接口,获取 json 数据,然后通过 jquery+css 的方式进行数据展示。工作流程如下:分析总述在本次项目中我们分别从七个大的角度来进行分析,分别为:用户基本信息分析模块浏览器信息分析模块地域信息分析模块用户浏览深度分析模块外链数据分析模块.

2021-02-10 00:54:21 1010

原创 2021-02-07 大数据课程笔记 day18

@R星校长初识 HBasehbase 介绍概述Welcome to Apache HBase™Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.Use Apache HBase™ when you need random, realtime read/write access to your Big Data. This project’s goal is the hosting of v.

2021-02-07 11:34:01 200

原创 2021-02-06 大数据课程笔记 day17

@R星校长Hive Lateral View、视图与索引Hive Lateral ViewLateral View 用于和 UDTF 函数(explode、split)结合来使用。首先通过 UDTF 函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表。主要解决在 select 使用 UDTF 做查询过程中,查询只能包含单个 UDTF,不能包含其他字段、以及多个 UDTF 的问题语法:LATERAL VIEW udtf(expression) tableAlias AS columnA.

2021-02-06 19:42:42 51

原创 2021-02-05 大数据课程笔记 day16

@R星校长Hive SQLHive SerDeHive SerDe - Serializer and DeserializerSerDe 用于做序列化和反序列化。构建在数据存储和执行引擎之间,对两者实现解耦。Hive 通过 ROW FORMAT DELIMITED 以及 SERDE 进行内容的读写。row_format: DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLEC.

2021-02-05 20:28:16 165

原创 mount: 在 /dev/sr0 上找不到媒体 & mount: 挂载点 /mnt/cdrom 不存在

@R星校长遇到两个问题:mount: 在 /dev/sr0 上找不到媒体mount: 挂载点 /mnt/cdrom 不存在问题 1:灰色显示表示这个没有连接上 可移动设备勾选启动时连接,如果设备是启动状态就还要勾选已连接 ,并且连接处要选择好ISO映像文件,点击浏览,选择电脑对应位置的镜像文件。问题 2:挂在目录不存在,说明缺少文件目录,我们这个时候需要新建目录,mkdir -p 中的 - p 表示 可以在父目录中创建子目录mkdir -p /mnt/cdrom.

2021-02-04 21:16:05 682

原创 2021-02-04 大数据课程笔记 day15

@R星校长HiveHive简介http://hive.apache.org/Apache Hive 数据仓库软件方便了使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。结构可以投影到已经存储的数据上。提供命令行工具和 JDBC 驱动程序将用户连接到 Hive。Hive 产生的原因:非 java 编程者通过 SQL 语句对 hdfs 的数据做 mapreduce 操作。对比项Hive关系型数据库查询语音HQLSQL数据存储HDFSLocal FS .

2021-02-04 14:01:48 108

原创 2021-02-03 大数据课程笔记 day14

@R星校长MapReduce 实战2 案例-2课程内容PageRankTF-IDFitemCFPageRank概念PageRank 是 Google 提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是 Google 创始人拉里·佩奇和谢尔盖·布林于1997年创造的 PageRank 实现了将链接价值概念作为排名因素。GOOGLE PageRank 并不是唯一的链接相关的排名算法,而是最为广泛使用的一种。其他算法还有:1、 Hilltop 算法2、 Exper.

2021-02-03 23:27:57 77

原创 2021-02-02 大数据课程笔记 day13

@R星校长MapReduce实战案例-1课程内容好友推荐天气案例好友推荐需求该给 hadoop 推荐哪个间接好友呢?两个人之间不认识,但是共同好友数越多,推荐的可能性越大数据集QQ:tom hello hadoop cathadoop tom hive worldworld hadoop hello hivecat tom hivemr hive hellohive cat hadoop world hello mrhello tom world hive mr特点.

2021-02-02 12:31:02 28

原创 2021-02-01 大数据课程笔记 day12

@R星校长mapreduce 计算流程:首先将 block 块进行逻辑切片的计算,每个切片(split)对应一个 map 任务切片是为了将 block 数量和 map 任务数量解耦。map 读取切片数据,默认按行读取,作为键值对交给 map 方法,其中 key 是当前读取的行在文件中的字节偏移量,value 就是读取的当前行的内容。map 开始计算,自定义的逻辑。map 将输出的 kv 首先写到环形缓冲区,在写之前计算分区号(默认按照 key 的 hash 值对 reducer 的个数取模)。.

2021-02-01 22:23:54 30

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除