![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 88
分布式大数据存储与计算系统
不秃不强就很帅
不秃也不强
展开
-
apache kylin4.0安装与使用
apache kylin4.0安装与使用kylin4.0优势kylin4.0架构大调整,去除了Hbase,改用hdfs parquet文件作为底层数据存储层,无需指标rowkey编码计算及查询引擎统一,采用spark,支持spark3.1,所以cube计算查询效率比kylin3.0直接提升一倍,稳定性也高很多存储的cube计算数据占用空间比hbase少一倍简单查询跟3.x版本性能差不多,但对应复杂查询,性能成倍数提升(parquet及目录分区过滤)综上,随着kylin4.0稳定版本发布,没有不升原创 2021-09-11 19:14:33 · 3687 阅读 · 11 评论 -
Hbase数据迁移方案
Hbase数据迁移方案hbase的数据迁移有几种,要求新老集群间所有机器间网络通并配有路由表或dns,查资料发现以下几种方案:1.走hdfs数据远程拷贝直接用hadoop distcp远程拷贝迁移出hfiles(先将原表disable下线,flush确保memostore持久化),再在新hbase集群创建相同表,通过LoadIncrementalHFiles工具载入hfile到这个新表低层原理是利用hadoop mapreduce 将Hfiles文件作为输入并行拷贝到新hdfs集群2.Hbase原创 2021-02-27 23:12:49 · 1635 阅读 · 0 评论 -
Hadoop学习与使用
Hadoop基础1. 大数据解决方案 Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。“90%的世界数据在过去的几年中产生”。由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式,它可以填补整个足球场。在2011年创建相同数据量只需要两天,在2013年该速原创 2020-06-12 23:21:51 · 1210 阅读 · 0 评论 -
Spark高阶编程-如何编写高效代码
Spark高阶编程1.Spark源码解析 以下以yarn-client提交sparkPI任务流程为例 执行${SPARK_HOME}/bin/spark-submit 提交任务命令spark-submit --master yarn --deploy-mode client --executor-cores 1 --num-executors 1 --class org.apache.spark.examples.SparkPi ${SPARK_HOME}/examples/jars/s原创 2020-06-12 22:44:19 · 820 阅读 · 0 评论 -
spark读hive没有权限异常Permission denied
sparkSQL读取hive库或表时提示没有权限异常spark@h1:~$ spark-shell 20/03/08 13:29:35 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableSetti...原创 2020-03-08 21:53:58 · 2566 阅读 · 0 评论 -
Hadoop集群配置部署
一、硬件需求 三台虚拟机:ubuntu01 ubuntu02 ubuntu03 vmware workstation 15上创建上面三台ubuntu server 18.04虚拟机二、配置Spark账户互信,免密登陆 1.rsa公钥加密密钥生成 ssh-keygen -t rsa ...原创 2019-09-12 13:56:28 · 159 阅读 · 0 评论