phoenix-数据采集项目-spark-零散笔记

林子茗

已于 2022-07-12 11:46:07 修改

阅读量352

点赞数

文章标签： spark 大数据 hbase

于 2022-07-11 13:00:51 首次发布

本文链接：https://blog.csdn.net/linhaitao1010/article/details/125719330

版权

07-HBase

创建表
1. Phoenix做的是纯翻译的工作，创建表时没指定列族，在HBase中只有一个名字为‘0’的列族。
2. 创建表时表名默认变成大写，加双引号“”保持小写。

0225

yarn-site.xml 配置

 <!-- yarn容器允许管理的物理内存大小 -->
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>4096</value>
    </property>

1. Spark是基于内存，本次处理的数据会保存在内存中，下一次要处理该数据的时候可以直接从内存中获取
    MR是基于磁盘，本job处理的数据会保存在磁盘中，下一个job要处理该数据的时候需要从磁盘获取
2. MR的task是进程，Spark的task是线程

普通集合和迭代器的区别

普通集合（如List等）会把所有数据加载到内存，若数据量太大，用普通集合会内存溢出。但是迭代器不会，迭代器是需要数据的时候才加载到内存。

关注