GALAXY'sDream-CSDN博客

原创新闻亿级流量采集与监控

数据类型行为日志：由客户端上报、用户的行为，如点赞、收藏内容日志：公司的产品，如一条新闻、一条商品业务日志：服务器端日志、元数据，一般在表格中行为日志与内容日志都采用HTTP接口，服务器端推送的模式1、项目架构...

2021-11-27 17:00:27 269

基于HDFS的分布式NoSQL（非关系型）数据库。面向海量数据的存储。在太小的数据量反而不如普通关系型数据库。特点：支持大量数据的随机、实时读写，在海量数据中可实现毫秒级的读写强一致性1、HBase数据结构5种模型：列、Row Key、store + 纵向横向切分Row列： ·有一个RowKey和多个Column(列)组成，按照字典顺序存储。查询时根据RowKey检索，所以RowKey的设计十分重要。Row Key：按字典序列族：将几个列划...

2021-11-13 21:12:16 258

原创 Spark SQL

SparkSQL支持对结构化和半结构化数据（如json）加载为一张分布式的表，并提供SQL和DSL（面向对象，调用API）对数据进行操作。

2021-11-13 16:05:17 1780

原创 Spark Core内核

宽窄依赖、DAG有向无环图、Stage

2021-11-12 21:45:24 130

原创 Spark Resilient Distributed Dataset

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。来源：Spark学习之路（三）Spark之RDD - 扎心了，老铁 - 博客园...

2021-11-10 11:22:12 175

原创 Apache Spark初学入门笔记

Spark和Hadoop根本差异是作业之间的数据通信问题，Spark多个作业之间数据通信是基于内存，Hadoop是基于磁盘。

2021-10-24 12:28:00 474

原创 Hive 运算符与函数

批处理模式：处理完一次就结束-e -f $HIVE_HOME/bin/hive -e'show databases'--service 启动服务set(临时) > hiveconf> hive-site.xml内置运算符show funtions; --展示所有运算符desc funtion [+]; --查看运算符功能desc function extend [+]； --查看更详细信息创建空表测试函数关键运...

2021-10-16 20:03:02 490

原创 Hive DQL 查询

从哪里查询关键在from后面的table_reference，可以是表、视图、join结果等后接Where 后接布尔表达式，用于查询过滤。支持任何函数和运算符，聚合函数除外Group by 分组Order by 排序HAVING其他Distinct 去重Limit 限制 ·可用两个数字，比如 2,100。范围为(2,100]聚合函数：Count 、 max 、 min 、 sum 、avg基础语法Selectselect cur...

2021-10-13 23:07:45 136

原创 Hadoop-Yarn初学入门笔记

0 概念对整个集群中的所有节点的软件和硬件资源进行管理和协调yarn不是hadoop独有的，它是一种规范，凡是符合这种资源调度规范的，都可以使用yarn做资源调度器，比如sparkYarn组成ResourceManager ·资源管理者，全局只有一个，一般在namenode 上管理整个资源调度的整体情况NodeManager ·每个节点的资源管理者，每个可以使用的节点上都有一个NodeManager,一般DataNode上都会有一个管理当前这个节点内的资源...

2021-10-02 18:44:28 173

原创 IDEA命令技巧与Debug入门

快捷键Alt + Enter = throwCtrl + P = 参数提示在对象后输入的命令.var 自动补全.for 循环遍历.sout 输出当前鼠标右键一键封装：右键general -> getter and setter一键构造函数（空参）：右键general -> ConstructerIDEA Debug...

2021-09-27 11:16:02 85

原创 Hadoop-MapReduce初学入门笔记

MapReduce用于处理海量数据计算，由谷歌论文而来，从论文角度来讲是一种思想，从技术角度来讲。是一种计算框架MR JAVA变量：Text=String，其他变量+Writeable1.1 Mapper1.用户定义的Mapper类药继承父类2.Mapper输入数据是泛型KV对的形式 Key 是偏移量，value 是值（内容）3.Mapper业务逻辑写在map（）方法4.Mapper输出也是KV对5.Map()方法对每个<K,V>...

2021-09-23 11:18:20 496

原创 Hadoop-HDFS笔记

1、HDFS是文件管理系统（分布式的），常见的还有NTFS，FAT322、一次写入，多次读出，写入后不能修改

2021-09-17 10:57:37 212

原创大数据生态体系与Hadoop入门

TEST

2021-07-21 17:36:54 93

cs798654808的博客