hadoop
文章平均质量分 81
a1117111a
这个作者很懒,什么都没留下…
展开
-
Spark 调优
Spark 调优 因为大部分Spark程序都具有“内存计算”的天性,所以集群中的所有资源:CPU、网络带宽或者是内存都有可能成为Spark程序的瓶颈。通常情况下,如果数据完全加载到内存那么网络带宽就会成为瓶颈,但是你仍然需要对程序进行优化,例如采用序列化的方式保存RDD数据(Resilient Distributed Datasets),以便减少内存使用。该文章主要包含两个议题:数据序列化和转载 2015-07-27 14:56:12 · 245 阅读 · 0 评论 -
大数据性能调优之HBase的RowKey设计
1 概述 HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。 既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowke转载 2015-08-26 17:34:06 · 280 阅读 · 0 评论 -
HBase 常用Shell命令
两个月前使用过hbase,现在最基本的命令都淡忘了,留一个备查~ 进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户 hb转载 2015-08-27 15:33:26 · 333 阅读 · 0 评论 -
core-site.xml配置
记录一下Hadoop的配置和说明,用到新的配置项会补充进来,不定期更新。以配置文件名划分 以hadoop 1.x配置为例 core-site.xml name value Description fs.default.name hdfs://hadoopmaster:9000 定义HadoopMaster的URI和端口 fs转载 2015-07-23 14:44:13 · 596 阅读 · 0 评论 -
mapred-site.xml
续上篇 name value Description hadoop.job.history.location job历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下。 hadoop.job.history.user.location 用户历史文件存放位置转载 2015-07-23 14:46:28 · 431 阅读 · 0 评论 -
hdfs-site.xml
续上篇整理一下hdfs相关的配置项 name value Description dfs.default.chunk.view.size 32768 namenode的http访问页面中针对每个文件的内容显示大小,通常无需设置。 dfs.datanode.du.reserved 1073741824 每块磁盘所保留转载 2015-07-23 14:45:28 · 461 阅读 · 0 评论 -
公司集群配置方式Hadoop 2.0.0-cdh4.5.0 (hadoop-env.sh)
# Copyright 2011 The Apache Software Foundation # # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with th原创 2015-07-23 15:31:36 · 482 阅读 · 0 评论 -
HBase compact 总结 及 调优配置
1 Compaction介绍 在HBase中,每当memstore的数据flush到磁盘后,就形成一个storefile,当storefile的数量越来越大时,会严重影响HBase的读性能 ,所以必须将过多的storefile文件进行合并操作。Compaction是Buffer-flush-merge的LSM-Tree模型的关键操作,主要起到如下几个作用: (1)合并转载 2015-08-06 15:56:51 · 821 阅读 · 0 评论 -
实时Hadoop实战篇:基于Storm实时路况分析和实时路径推荐系统
本文介绍的项目,我们基于storm开发了深圳市实时交通路况系统,源码已经在github上开源: https://github.com/whughchen/RealTimeTraffic https://github.com/whughchen/realODMatrix 欢迎关注 并 fork 加以改进~ ----- Hadoop分布式计算系统以其强大的计转载 2015-08-07 14:26:12 · 837 阅读 · 1 评论