大数据计算
本专栏主要介绍大数据工具Hadoop生态工具,以Cloudera公司的CDH为数据平台,进行讲解Hadoop体系架构、基于Cloudera CDH安装、Hadoop分布式文件系统、MapReduce原理与实现、Yarn资源调度原理、Hadoop认证机制、配置文件详解等相关知识。
macjson
这个作者很懒,什么都没留下…
展开
-
Impala动态分区插入数据慢
有近20年的广告数据,需要对外提供查询分析服务(对数据进行Ad-Hoc式查询,Ad-Hoc:即席查询,允许终端用户灵活的自定义、创建查询条件,后端引擎根据发送过来的查询请求生成用户要求的报表、统计分析结果。即席查询是非定制化的,不可预知的。),当前采用了Apache Impala作为查询分析引擎。这些广告数据涵盖了各种媒介,每种媒介又进行定义了不同的媒体。原创 2020-06-12 15:44:38 · 3053 阅读 · 0 评论 -
Hadoop绑定多网卡问题
Hadoop多网卡绑定Hadoop多网卡绑定 网络环境介绍 iptables介绍 详细操作配置 参考文章链接 Hadoop默认配置NameNode 运行 HDFS 协议的端口8020绑定的主机接口domain段均为0.0.0.0,表示可通过任一块网卡访问该端口。对于双网卡服务器(一个内网,一个外网),这就意味着公网上所有的用户均可访问Hadoop配置的HDFS,这样存在一个极大的安全问题。这样,我原创 2017-02-20 17:02:33 · 3951 阅读 · 0 评论