自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 新闻亿级流量采集与监控

数据类型行为日志:由客户端上报、用户的行为,如点赞、收藏内容日志:公司的产品,如一条新闻、一条商品业务日志:服务器端日志、元数据,一般在表格中行为日志与内容日志都采用HTTP接口,服务器端推送的模式1、项目架构...

2021-11-27 17:00:27 269

原创 HBase

基于HDFS的分布式NoSQL(非关系型)数据库。面向海量数据的存储。在太小的数据量反而不如普通关系型数据库。特点:支持大量数据的随机、实时读写,在海量数据中可实现毫秒级的读写强一致性1、HBase数据结构5种模型:列、Row Key、store + 纵向横向切分Row列: ·有一个RowKey和多个Column(列)组成,按照字典顺序存储。查询时根据RowKey检索,所以RowKey的设计十分重要。Row Key:按字典序列族:将几个列划...

2021-11-13 21:12:16 258

原创 Spark SQL

SparkSQL支持对结构化和半结构化数据(如json)加载为一张分布式的表,并提供SQL和DSL(面向对象,调用API)对数据进行操作。

2021-11-13 16:05:17 1780

原创 Spark Core内核

宽窄依赖、DAG有向无环图、Stage

2021-11-12 21:45:24 130

原创 Spark Resilient Distributed Dataset

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。来源:Spark学习之路 (三)Spark之RDD - 扎心了,老铁 - 博客园...

2021-11-10 11:22:12 175

原创 Apache Spark初学入门笔记

Spark和Hadoop根本差异是作业之间的数据通信问题,Spark多个作业之间数据通信是基于内存,Hadoop是基于磁盘。

2021-10-24 12:28:00 474

原创 Hive 运算符与函数

批处理模式:处理完一次就结束-e -f $HIVE_HOME/bin/hive -e'show databases'--service 启动服务set(临时) > hiveconf> hive-site.xml内置运算符show funtions; --展示所有运算符desc funtion [+]; --查看运算符功能desc function extend [+]; --查看更详细信息创建空表测试函数关键运...

2021-10-16 20:03:02 490

原创 Hive DQL 查询

从哪里查询关键在from后面的table_reference,可以是表、视图、join结果等后接Where 后接布尔表达式,用于查询过滤。支持任何函数和运算符,聚合函数除外Group by 分组Order by 排序HAVING其他Distinct 去重Limit 限制 ·可用两个数字,比如 2,100。范围为(2,100]聚合函数:Count 、 max 、 min 、 sum 、avg基础语法Selectselect cur...

2021-10-13 23:07:45 136

原创 Hadoop-Yarn初学入门笔记

0 概念对整个集群中的所有节点的软件和硬件资源进行管理和协调yarn不是hadoop独有的,它是一种规范,凡是符合这种资源调度规范的,都可以使用yarn做资源调度器,比如sparkYarn组成ResourceManager ·资源管理者,全局只有一个,一般在namenode 上管理整个资源调度的整体情况NodeManager ·每个节点的资源管理者,每个可以使用的节点上都有一个NodeManager,一般DataNode上都会有一个管理当前这个节点内的资源...

2021-10-02 18:44:28 173

原创 IDEA命令技巧与Debug入门

快捷键Alt + Enter = throwCtrl + P = 参数提示在对象后输入的命令.var 自动补全.for 循环遍历.sout 输出当前鼠标右键一键封装:右键general -> getter and setter一键构造函数(空参):右键general -> ConstructerIDEA Debug...

2021-09-27 11:16:02 85

原创 Hadoop-MapReduce初学入门笔记

MapReduce用于处理海量数据计算,由谷歌论文而来,从论文角度来讲是一种思想,从技术角度来讲。是一种计算框架MR JAVA变量:Text=String,其他变量+Writeable1.1 Mapper1.用户定义的Mapper类药继承父类2.Mapper输入数据是泛型KV对的形式 Key 是偏移量,value 是值(内容)3.Mapper业务逻辑写在map()方法4.Mapper输出也是KV对5.Map()方法对每个<K,V>...

2021-09-23 11:18:20 496

原创 Hadoop-HDFS笔记

1、HDFS是文件管理系统 (分布式的),常见的还有NTFS,FAT322、一次写入,多次读出,写入后不能修改

2021-09-17 10:57:37 212

原创 大数据生态体系与Hadoop入门

TEST

2021-07-21 17:36:54 93

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除