博客专栏  >  架构   >  大数据专题

大数据专题

本专栏将围绕hadoop生态圈逐一介绍和挖掘hdfs,yarn,hbase,hive,storm,spark等技术构架。

关注
172 已关注
36篇博文
  • Pull模式下流计算频率与周期相关性的分析

    本文讨论的话题有一些特定的背景,这里的“流计算”具体指的是以Spark Streaming为代表的Micro Batch一类的流式计算框架,因此会涉及到Batch Duration、Window以及S...

    2017-11-06 11:50
    299
  • BlockingQueue在任务调度中的精彩应用

    问题来了…我们正在构建的系统需要从外部第三方系统中采集数据,受不可控的外部环境的影响,我们的数据采集工作经常被阻塞,一种典型的情况是:某个目标数据库因为要同时处理多个外围系统叠加的查询请求而经常响应缓...

    2017-11-05 10:04
    531
  • OpenTSDB安装极简备忘

    1. Downloadhttps://github.com/OpenTSDB/opentsdb/releases 2. Install Depenency: Gnuplotyum -y install...

    2016-12-18 13:29
    1991
  • Spark连接外部数据源解读

    本文以连接HBase数据库为例,介绍Spark DataSource API的结构。项目源码:https://github.com/hortonworks-spark/shc 注:由于某些原因,尚无充...

    2016-10-21 12:51
    4266
  • Cassandra的一致性哈希(Consistent Hashing)和虚拟节点(Virtual Nodes)的关系

    Cassandra的一致性哈希(Consistent Hashing)和虚拟节点(Virtual Nodes)的关系一致性哈希所要解决的问题一般的哈希算法存在的问题是:当“模”发生变化时,所有的值都需...

    2016-10-18 11:47
    4121
  • Spark闭包与序列化

    本文原文出处: http://blog.csdn.net/bluishglc/article/details/50945032 严禁任何形式的转载,否则将委托CSDN官方维护权益!在Spark的官方文...

    2016-03-21 11:27
    11009
  • Linux出现Read-only file system错误的解决方法

    造成这个问题的原因大多数是因为非正常关机后导致文件系统受损引起的,在系统重启之后,受损分区就会被Linux自动挂载为只读。解决的方法是通过fsck来修复文件系统,然后重启即可,以下是以针对/dev/x...

    2016-02-26 13:37
    11660
  • Spark SQL: Error in query: undefined function错误的解决方法

    问题描述如果你在Spark SQL上试图调用在HIVE注册的自定义函数(UDF)时,你可能会遇到这样的错误:Spark SQL: Error in query: undefined function ...

    2016-02-26 13:20
    5058
  • Spark官方文档《Spark Programming Guide》解读

    Spark官方文档《Spark Programming Guide》的链接: http://spark.apache.org/docs/latest/programming-guide.html RD...

    2016-02-22 11:59
    7068
  • Spark - ERROR Executor: java.lang.OutOfMemoryError: unable to create new native thread

    如果你的Spark程序在执行过程中报出如下类似的错误:ERROR Executor: Exception in task xxx in stage xxx java.lang.OutOfMemoryE...

    2016-02-20 16:06
    7043
  • Storm/Cassandra集成错误:NoSuchMethodError: concurrent.Futures.withFallback

    2015年的最后一篇博文了,本想着来个年终总结,终究还是没能打破惯例,在技术博客上写一篇非技术博文,所以这2015年的最后一篇文章是关于一个很小很小的小问题,为啥没准备一篇宏篇大论呢?最近忙的跟鬼似的...

    2015-12-31 18:14
    5544
  • 吐槽Oozie: 挖好坑,等你跳!

    说说Oozie一些糟糕的地方吧,确实需要吐槽一下,作为开发者,因为使用的工具存在这样或那样的缺陷而导致话费大量时间去查找问题的根源是很不开心的一件事情,整体上,Oozie的完备性、文档的准确性以及很多...

    2015-06-01 07:34
    7688
  • 关于Oozie的input-events和done-flag

    关于Oozie的input-events和done-flag 工作流的执行条件 当coordinator指定的一个workflow已经进入执行时间窗口时,oozie会首先检查所有的input-...

    2015-06-16 10:22
    5691
  • What's Wrong With Hue Oozie Editor?

    First, let’s make the topic clear: Comparing with providing raw Oozie workflow/coordinator xml file,...

    2015-07-23 13:40
    4832
  • Ambari Metrics介绍

    概念 Terminology Description Ambari Metrics System (“AMS”) The built-in metrics collection syst...

    2015-09-01 11:00
    11328
  • Oozie工作流属性配置的方式与策略

    Oozie工作流属性配置的三种方式 Oozie有三种方法可以给工作流提供属性属性配置: App部署文件夹根目录下的:config-default.xml 作业属性文件:job.propertie...

    2015-09-14 23:16
    8703
  • HIVE以及OOZIE添加第三方JAR包的方法

    很多时候,我们需要在HIVE中引入第三方jar包或者是自己编写的“UDF”jar包。在HIVE中,涉及指定外部jar包的配置有两个地方: hive-site.xml中的配置项“hive.aux.jar...

    2015-05-26 10:55
    10612
  • HDP 2.2.4 Hue Oozie Editor生成workflow.xml的几点问题

    如果你想让你手写的workflow.xml成功的倒入到Hue的Oozie Designer里,你需要注意如下几点: 关于chema的版本:oozie最高只能是0.4,hive-action最高只能是0...

    2015-05-21 10:25
    7155
  • Hue - Oozie Editor: Retrying connect to server: localhost/127.0.0.1:8050 的错误解决方法

    问题描述在当前版本的HUE(2.6.1-2)里,oozie editor存在一个糟糕的BUG: 用户无法在workflow的配置中指定${jobTracker}和${nameNode}的值,尽管我尝试...

    2015-05-19 12:52
    8927
  • 关于近期HBase系统设计开发和性能调优的一些小结

    1. 全局查询策略 应该一边倒地依赖索引进行查询,保证绝大多数的查询是秒级返回。尽量避免动用全表扫描,让全表扫描仅服务于非常有限的“生僻”查询!实现这种格局需要尽可能地保证索引轻量短小(尽量缩短字节)...

    2014-01-27 12:01
    9052
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部