- 博客(13)
- 收藏
- 关注
原创 新闻亿级流量采集与监控
数据类型行为日志:由客户端上报、用户的行为,如点赞、收藏内容日志:公司的产品,如一条新闻、一条商品业务日志:服务器端日志、元数据,一般在表格中行为日志与内容日志都采用HTTP接口,服务器端推送的模式1、项目架构...
2021-11-27 17:00:27 269
原创 HBase
基于HDFS的分布式NoSQL(非关系型)数据库。面向海量数据的存储。在太小的数据量反而不如普通关系型数据库。特点:支持大量数据的随机、实时读写,在海量数据中可实现毫秒级的读写强一致性1、HBase数据结构5种模型:列、Row Key、store + 纵向横向切分Row列: ·有一个RowKey和多个Column(列)组成,按照字典顺序存储。查询时根据RowKey检索,所以RowKey的设计十分重要。Row Key:按字典序列族:将几个列划...
2021-11-13 21:12:16 258
原创 Spark SQL
SparkSQL支持对结构化和半结构化数据(如json)加载为一张分布式的表,并提供SQL和DSL(面向对象,调用API)对数据进行操作。
2021-11-13 16:05:17 1780
原创 Spark Resilient Distributed Dataset
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。来源:Spark学习之路 (三)Spark之RDD - 扎心了,老铁 - 博客园...
2021-11-10 11:22:12 175
原创 Apache Spark初学入门笔记
Spark和Hadoop根本差异是作业之间的数据通信问题,Spark多个作业之间数据通信是基于内存,Hadoop是基于磁盘。
2021-10-24 12:28:00 474
原创 Hive 运算符与函数
批处理模式:处理完一次就结束-e -f $HIVE_HOME/bin/hive -e'show databases'--service 启动服务set(临时) > hiveconf> hive-site.xml内置运算符show funtions; --展示所有运算符desc funtion [+]; --查看运算符功能desc function extend [+]; --查看更详细信息创建空表测试函数关键运...
2021-10-16 20:03:02 490
原创 Hive DQL 查询
从哪里查询关键在from后面的table_reference,可以是表、视图、join结果等后接Where 后接布尔表达式,用于查询过滤。支持任何函数和运算符,聚合函数除外Group by 分组Order by 排序HAVING其他Distinct 去重Limit 限制 ·可用两个数字,比如 2,100。范围为(2,100]聚合函数:Count 、 max 、 min 、 sum 、avg基础语法Selectselect cur...
2021-10-13 23:07:45 136
原创 Hadoop-Yarn初学入门笔记
0 概念对整个集群中的所有节点的软件和硬件资源进行管理和协调yarn不是hadoop独有的,它是一种规范,凡是符合这种资源调度规范的,都可以使用yarn做资源调度器,比如sparkYarn组成ResourceManager ·资源管理者,全局只有一个,一般在namenode 上管理整个资源调度的整体情况NodeManager ·每个节点的资源管理者,每个可以使用的节点上都有一个NodeManager,一般DataNode上都会有一个管理当前这个节点内的资源...
2021-10-02 18:44:28 173
原创 IDEA命令技巧与Debug入门
快捷键Alt + Enter = throwCtrl + P = 参数提示在对象后输入的命令.var 自动补全.for 循环遍历.sout 输出当前鼠标右键一键封装:右键general -> getter and setter一键构造函数(空参):右键general -> ConstructerIDEA Debug...
2021-09-27 11:16:02 85
原创 Hadoop-MapReduce初学入门笔记
MapReduce用于处理海量数据计算,由谷歌论文而来,从论文角度来讲是一种思想,从技术角度来讲。是一种计算框架MR JAVA变量:Text=String,其他变量+Writeable1.1 Mapper1.用户定义的Mapper类药继承父类2.Mapper输入数据是泛型KV对的形式 Key 是偏移量,value 是值(内容)3.Mapper业务逻辑写在map()方法4.Mapper输出也是KV对5.Map()方法对每个<K,V>...
2021-09-23 11:18:20 496
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人