尚硅谷大数据
文章平均质量分 52
nzch
这个作者很懒,什么都没留下…
展开
-
sgg-hbase项目
视频地址:https://www.bilibili.com/video/BV1Y4411B7jy?p=52代码:资料:-----------------------和牛逼很全的代码:https://github.com/jast90/awesome-learning/issues/1---53---原创 2021-04-22 20:05:16 · 173 阅读 · 0 评论 -
20-11-flink项目
1原创 2021-04-15 19:09:47 · 83 阅读 · 0 评论 -
20-10-flink项目
12原创 2021-04-15 18:26:41 · 92 阅读 · 0 评论 -
sgg-hbase-05-phoneix
视频地址:https://www.bilibili.com/video/BV1EE411T7KH?p=49文档:https://wenku.baidu.com/view/9eebcc377b563c1ec5da50e2524de518964bd3dc.html---其中rowKey是一级索引。---49---比较牛的文章:https://mua525.blog.csdn.net/article/details/103738249---50---...原创 2021-04-11 15:16:02 · 145 阅读 · 0 评论 -
sgg-hbase-04
1原创 2021-04-10 21:06:17 · 116 阅读 · 0 评论 -
sgg-hbase-03
1原创 2021-04-10 20:46:30 · 114 阅读 · 0 评论 -
sgg-hbase-02
复习没看呢---01---一、读流程找读取数据对应的rs: ①请求zookeeper,查询 /hbase/meta-region-server 节点,获取meta表所在的rs ②向meta表所在的rs发送读请求,讲读取到的内容缓存到客户端本地,此后就不需要频繁查询 meta表 ③从meta表中,根据region和regionserver的对应关系,找到rowkey所属的region的regionserver 读取数据: 读取的数据存储在列族(store)中!列族原创 2021-04-10 14:10:37 · 136 阅读 · 0 评论 -
sgg大数据-spark-03---一天十个---20210401
双值类型:package com.atguigu.bigdata.spark.core.rdd.operator.transformimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Spark13_RDD_Operator_Transform { def main(args: Array[String]): Unit = { val spar原创 2021-04-01 12:44:10 · 165 阅读 · 0 评论 -
sgg大数据-spark-02---一天十个---20210327
RDD的作用。---31---在集合中创建RDD---32------33---以文件为单位读取数据:---34---关于并行度:几个分区几个task,发给executor。z不传的话就是按照核心数分区的。还是可以配置的:---35---数据不多但是分区比较多该怎么办呢?分区的规律是什么呢?---36---...原创 2021-03-28 00:05:11 · 186 阅读 · 0 评论 -
sgg大数据-spark-01---一天十个---20210317/18
---01---原创 2021-03-15 00:08:00 · 213 阅读 · 0 评论 -
sgg-hbase-01
mysql是有锁的。hive不能说是数据库,是OlAP的。对大数据进行实时的读写操作的时候,我们用到hbase的。hbase可以随机写的,hive不支持随机写。基本是k和v存储。---hbase加了时间戳了,做update。删除的话就是,也加时间戳,标记是删除。hbase允许10亿行和百万列。一、HBase支持随机写 HBase的读写操作还是借助HDFS完成,要完成随机写,根本上还是需要复合HDFS的特性! HDFS只支持追加写! 随机的操作原创 2021-03-14 22:18:34 · 299 阅读 · 0 评论 -
sgg大数据新-hadoop-02
复习。---00---单机如何执行:控制hadoop执行jar包。执行官方的wordCount案例:---01---集群是如何配置的?第一步:配置配置文件需要得到JAVA_HOME的路径。/usr/local/apps/hadoop-2.7.2/etc/hadoop[root@localhost hadoop]# $JAVA_HOME-bash: /usr/local/apps/jdk8: Is a directory[root@localhost .原创 2021-03-12 00:26:01 · 307 阅读 · 0 评论 -
sgg大数据新-hadoop-01
略---01-03---hadoop官网:http://hadoop.apache.org/---04-15---搭建hadoop集群:克隆虚拟机之后我做什么:第一步:第二步:第三步:修改主机名称第四步:修改映射名称第五步:在windows做映射第六步:关闭防火墙第七步:创建用户---16------17------18---...原创 2021-03-10 23:40:36 · 181 阅读 · 0 评论 -
20-09-flink项目
复习略---01---基于web服务器的热门数据的统计。实时的热门的页面的统计。如今分析这个log日志呢,就是跟绝代码的url去分析的。单例对象是object的。看下这个数据是乱序的。在数据源分配时间戳和水位线。主要是搭建了代码的整体的框架---02---...原创 2021-03-09 10:13:51 · 269 阅读 · 0 评论 -
20-08-flink项目
代码:---08-08---五大模块:统计一小时,每5min更新结果。排序我是基于窗口各排各的。一条数据可能属于12个窗口的。60/5=12。聚合是没有用count的。新的聚合的方式。开窗之后用windowFunction的。元组:https://blog.csdn.net/qq_36330643/article/details/76484840代码:package com.atguigu.hotitems_analysisi...原创 2021-03-07 21:16:47 · 158 阅读 · 0 评论 -
20-08-flink
略---01---窗口:1. Table api程序的主要结构所有的操作基于Table在环境里注册表,可以用connect方法连接到不同的外部系统,定义好format和schema对于输入和输出的表,TableSource和TableSink,创建的时候不做区分,主要是后面的处理逻辑决定2. 调table的insertInto方法,可以将表数据写入TableSink3. 动态表和持续查询这是流处理程序转换成表结构的核心概念4. 更新模式Append仅追加,Retract撤回(A原创 2021-03-07 16:37:01 · 87 阅读 · 0 评论 -
20-07-flink
---01------02---原创 2021-02-28 18:13:36 · 128 阅读 · 0 评论 -
20-flink-新
窗口很长,但是滑动时间很短就会很占空间的。processFunction是最底层的语言,是DataStream底层的语言。原创 2021-02-27 15:23:54 · 90 阅读 · 0 评论 -
20-06-flink
略---01---flink的检查点不是数据是状态。---02---原创 2021-02-21 22:04:06 · 250 阅读 · 0 评论 -
14-00-scala随笔
123原创 2021-02-20 19:27:17 · 83 阅读 · 0 评论 -
20-05-flink
123原创 2021-02-17 15:44:04 · 141 阅读 · 0 评论 -
20-04-flink
window api基于keyedStream。window是桶。1. window操作两个主要步骤:窗口分配器(.window),窗口函数(reduce,aggregate,apply,process)2. window类型通过窗口分配器来决定,时间窗口和计数窗口按照窗口起止时间(个数)的定义,可以有滚动窗口、滑动窗口、会话窗口滑动窗口中,每条数据可以属于多个窗口,属于size/slide个窗口会话窗口,窗口长度不固定,需要指定间隔时间3. 窗口函数窗口函数是基于当前窗口内的原创 2021-02-15 19:57:34 · 138 阅读 · 0 评论 -
14-05-scala
123原创 2021-01-31 21:30:10 · 80 阅读 · 0 评论 -
14-03-scala
---01------02---值传递。名传递:---03------04-05---惰性求值:我们永远不用的值是不需要计算的,否则可能会拖慢系统启动的速度。---06---原创 2021-01-31 21:24:32 · 85 阅读 · 0 评论 -
14-02-scala
复习略---01---任何的语法结构都是有值的。while结构的值是unit赋值语句的值也是unit---02---for循环的基本使用---03---循环守卫。scala就是一个函数式的语言给你一个循环就不错了---04---结束循环---05---嵌套循环:所有的代码都在内层循环才可以使用循环嵌套的---06---循环的高级:for循环的推导---07---函数的默认值:scala最终会编译为java的字节码的..原创 2021-01-28 00:13:58 · 95 阅读 · 0 评论 -
20-03-flink
复习:---01---原创 2020-12-21 23:28:35 · 216 阅读 · 0 评论 -
14-01scala
scals的case的作用:https://blog.csdn.net/sinat_35045195/article/details/78851476---汇总---原创 2020-12-14 00:10:59 · 110 阅读 · 0 评论 -
20-02-flink
123原创 2020-12-06 22:45:27 · 242 阅读 · 0 评论 -
20-01-flink
资料:flink的官方文档:https://flink.apache.org/zh/flink-architecture.htmlflnk是流式的处理,spark是批式的处理。处理的架构:---01---基于事件实时的响应的,问题是数据量非常多的话数据库的压力会很大的。演化还是基于事件的方式的。不是读取关系型数据库而是保存在本地的状态。checkpoint检查点。flink解决了批和流的两套,合并为一套。---flink是事件的驱动原创 2020-12-05 20:56:44 · 247 阅读 · 0 评论 -
尚硅谷大数据---06---hive02
复习:一、Hive1.简介 Hive是一个数据仓库软件。 Hive主要使用HQL(类sql)来分析已经存储在分布式设备(HDFS)上的数据! Hive的本质是将用户编写的HQL,转换为MR程序,对数据进行分析! Hive分析的数据必须是结构化的数据,在分析之前,用户需要对数据创建表结构! Hive的表结构(shema)存储在关系型数据库中,数据是存储在HDFS上,二者通过表进行映射! Hive基于OLAP设计,基于OLAP设计的软件,一般重分析,延时高! 2.安装①原创 2020-10-08 14:33:34 · 292 阅读 · 0 评论 -
尚硅谷大数据---06---hive01
文件:hive官方文档:https://hive.apache.org/hadoop入门:https://www.jianshu.com/p/0d4a365ef350hive的介绍:一、Hive的介绍1. Hive是一个数据仓库软件 Hive可以使用SQL来促进对已经存在在分布式设备中的数据进行读,写和管理等操作! Hive在使用时,需要对已经存储的数据进行结构的投影(映射) Hive提供了一个命令行和JDBC的方式,让用户可以连...原创 2020-10-07 22:38:39 · 477 阅读 · 1 评论 -
sgg大数据--04shell
---02---$是表示引用定义好的变量,SHELL表示是linux定义的变量。cat /etc/bash 相当于:加入''就是一整个参数。-c就是command表示是一个指令。linux中一切皆文件,这个文件就是shell可以执行的命令而已:其中network status就是两个参数。---03------04---...原创 2020-09-25 14:13:30 · 236 阅读 · 0 评论