07-HBase
Phoenix
- 创建表
- Phoenix做的是纯翻译的工作,创建表时没指定列族,在HBase中只有一个名字为‘0’的列族。
- 创建表时表名默认变成大写,加双引号“”保持小写。
经验
- phoenix + hbase 建表,字段类型全部用varchar,防止不兼容等错误。
21. 数据采集项目
0225
yarn-site.xml 配置
<!-- yarn容器允许管理的物理内存大小 -->
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>4096</value>
</property>
10-Spark
Spark为什么比MR快
1. Spark是基于内存,本次处理的数据会保存在内存中,下一次要处理该数据的时候可以直接从内存中获取
MR是基于磁盘,本job处理的数据会保存在磁盘中,下一个job要处理该数据的时候需要从磁盘获取
2. MR的task是进程,Spark的task是线程
-
普通集合和迭代器的区别
普通集合(如List等)会把所有数据加载到内存,若数据量太大,用普通集合会内存溢出。但是迭代器不会,迭代器是需要数据的时候才加载到内存。