Hadoop
文章平均质量分 77
asin929
这个作者很懒,什么都没留下…
展开
-
Hue功能总结
Hue功能总结认证授权方式支持的认证授权方式Hue默认使用Django存储用户,用户组及权限表,即采用数据库存储方式进行认证.除此之外,也支持其他方式的多重认证,包括LDAP, OpenID, SAML等,见Configuring Hue with Multiple Authentication Backends and LDAP.数据库认证授权方式示例Hue存储的数据包括用户表,用户组表,权限表,原创 2015-11-13 00:24:00 · 6574 阅读 · 1 评论 -
关于WebHDFS与HttpFS
简介两者都是基于REST的HDFS API,使得一个集群外的host可以不用安装HADOOP和JAVA环境就可以对集群内的HADOOP进行访问,并且client不受语言的限制。WebHDFS是HDFS内置的、默认开启的一个服务,而HttpFS是HDFS一个独立的服务,若使用需要配置并手动开启。 WebHDFS是HortonWorks开发的,然后捐给了Apache;而HttpFS是Clouder原创 2016-06-05 20:00:27 · 13582 阅读 · 1 评论 -
详解--访问HDFS的几种方式
命令行访问hadoop fs -cat /user/hdfs/test_hadoop/data-256M采用上述命令查看文件时,依据hadoop的文件访问策略,hadoop会将距离该节点最近的备份传输过来。若上述文件的其中一个备份存在dn6上,在dn5上运行如上命令,则dn5和dn6的网络IO会增高,同时dn5的硬盘IO会增大,如下所示: 注意:若使用命令hadoop fs -ls /hdfs/t原创 2016-06-05 19:50:35 · 20338 阅读 · 0 评论 -
YARN和HDFS的调用方式汇总
MapReduce和HDFS的运行方式汇总总结涉及到运行MapReduce和HDFS的几种方式,包括使用命令行,oozie,API等.操作MapReduce命令行方式hadoop jar wordcount.jar hdfs_input hdfs_output使用YARN REST APIS通过YARN(MapReduceV2)提供的api,用户可以自定义提交作业,查看作业状态等,参见Hadoop原创 2015-11-13 00:25:12 · 3476 阅读 · 0 评论 -
Cloudera Manager5.8.0离线安装记
目录目录安装说明有关数据库配置关于Oozie数据库配置关于Hue数据库配置附其他数据库的配置错误解决错误1CM Server启动出错错误2CM Agent启动出错错误3spark启动出错附录参考安装说明安装参考官方文档:Cloudera Enterprise 5.8.x Documentation和Installation Path C - Manual Installati原创 2016-08-21 23:57:42 · 7155 阅读 · 0 评论 -
hadoop的用户代理机制
hadoop的用户代理机制官方文档解读参考Proxy user - Superusers Acting On Behalf Of Other Users。在hadoop的core-site.xml中进行如下设置, 用户“super”就可以代理主机host1和host2上属于组group1和group2的所有用户。<property> <name>hadoop.proxyuser.super原创 2015-11-18 11:28:03 · 19402 阅读 · 1 评论 -
Jupyter配置Spark开发环境
效果图简介Spark Kernel的安装Spark Kernel旧的项目Toree新项目Spark组件单独安装Scala Kernel的安装PySpark的安装效果图无图无真相,以下是运行截图,Jupyter运行界面: 作业监控界面: 简介为Jupyter配置Spark开发环境,可以安装全家桶–Spark Kernel或Toree,也可按需安装相关组件。考虑到一般人更喜欢一步到位,原创 2016-08-30 20:34:12 · 12839 阅读 · 2 评论 -
关于Hadoop Metrics
简介Metrics的英文含义是“度量”,这里可以理解为“监控指标”。关于Hadoop的Metrics,官网直接给出了总结,初学者很难理解,以下以HDFS为例来说明。打开HDFS Web UI — http://namenode:50070/dfshealth.html#tab-overview,如下所示, 从该网址我们可以得到整个集群容量(HDFS)的各种信息,实际上上述信息也可以通过请求ht原创 2016-08-21 23:04:47 · 6090 阅读 · 0 评论 -
CDH安装概览篇
说明CDH安装有好几种方式,新手容易困惑,故总结之。官网介绍参见官网–安装 Cloudera Manager、CDH 和受管服务,实际上总共有6个阶段, 每个阶段都有不同的方式可以完成。见下图,根据上述说明,在安装Cloudera Manager阶段时,共有A、B、C三种方式可以完成,方式A是通过运行cloudera-manager-installer.bin文件的方式在线安装方式B是通过yu原创 2016-08-03 11:29:39 · 769 阅读 · 0 评论 -
Yarn作业信息的获取
方式1–查看作业记录文件CDH中,在HDFS的/user/history/done目录下,包含了全部已完成的MR作业,done_intermediate包含了全部正在进行的作业。方式2–REST APIHadoop YARN - Introduction to the web services REST API’s通过一个示例作业的完整运行过程,介绍了其所用到的全部REST API,包括MapRe原创 2016-06-09 23:59:26 · 10042 阅读 · 0 评论 -
离线安装Cloudera Manager 5和CDH5.3.8(下)
续上篇离线安装Cloudera Manager 5和CDH5.3.8(上) 。部署1.启动server(主节点) /opt/cm-5.3.8/etc/init.d/cloudera-scm-server start2.启动agent(所有节点) /opt/cm-5.3.8/etc/init.d/cloudera-scm-agent start注意:可使用/opt/cm-5.3.8/e原创 2015-12-19 00:20:36 · 4344 阅读 · 1 评论 -
离线安装Cloudera Manager 5和CDH5.3.8(上)
系统环境server OS: Ubuntu 14.04 Trusty 64bitserver memory:4Gserver JDK version: jdk8mysql:节点分配 node ip hostname namenode 192.168.80.34 lyhadoop.com datanode 192.168.80.222 lyhadoop2.c原创 2015-11-07 16:05:43 · 1821 阅读 · 0 评论 -
Cloudera Manager 5 管理
开启oozie Web界面启动oozie后进入web界面,提示安装ext-2.2后web才能正常显示。参照官方–Enabling the Oozie Web Console操作即可解决。原创 2015-11-11 13:45:16 · 3317 阅读 · 0 评论 -
Hadoop问题汇总
问题描述:在eclipse下运行hadoop项目,没有输出日志,警告如下,意为没有找到log4j文件。log4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell).log4j:WARN Please initialize the log4j system properly.log4j:WARN S原创 2015-06-05 11:48:29 · 949 阅读 · 0 评论 -
CDH中服务的配置及启动
这里“服务”沿用CDH中的概念,指的是“HDFS”、“YARN”、“Spark”、“Hive”等大数据软件。各服务的启动方式一–在Cloudera Manager界面启动方式二–手动启动以Hive为例,hive --service metastore &Starting Hive Metastore Serverhive --service hiveserver &Starting Hive原创 2016-07-25 23:45:04 · 13231 阅读 · 0 评论