大数据
shaobo Huang
化繁为简,高效极致
展开
-
结构化数据、半结构化数据和非结构化数据
一、结构化数据结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子:id name age gender1 Liu Yi 20 male2 Chen Er 35 female3 Zhang San 28 male所以,结构原创 2020-08-14 11:06:25 · 11796 阅读 · 0 评论 -
提交spark任务命令
打jar包命令 sbt package运行命令spark-submit --class com.qbao.ml.tide.model.TideProcess --num-executors 100 --driver-cores 16 --driver-memory 16g ml-spark_2.10-1.0.jar 1 0 >>./ExecuteTide.log 2>&...原创 2019-12-31 11:38:14 · 516 阅读 · 0 评论 -
NameNode DataNode
1.数据块的大小设置为多少合适为什么? hadoop数据块的大小一般设置为128M,如果数据块设置的太小,一般的文件也会被分割为多个数据块,在访问的时候需要查找多个数据块的地址,这样的效率很低,而且如果数据块设置太小的话,会消耗更多的NameNode的内存;而如果数据块设置过大的话,对于并行的支持不是太好,而且会涉及系统的其他问题,比如系统重启时,需要从新加载数据,数据块越大,耗费的时间越...原创 2019-03-12 10:52:00 · 319 阅读 · 0 评论