开源大数据周刊-第84期

资讯

4月11日,神策数据 C 轮融资发布会在北京举行。本轮融资由华平投资领投,红杉资本中国基金、DCM资本、襄禾资本、晨兴资本、线性资本、明势资本跟投,共计4400万美元。这标志着,神策数据成为国内用户行为分析领域,首家完成 C 轮融资的大数据公司。

日前,记者从贵阳高新区获悉,该区将抢抓贵州坚定不移推进大数据战略行动向纵深发展的机遇,全力打造“中国数谷之心”,强化大数据发展要素集聚,加快大数据与实体经济的融合,推动大数据发展跃上新台阶。

4月9日,重庆市与阿里巴巴集团、蚂蚁金服集团在大数据智能化应用、科技金融和大数据人才培养等3大领域集中签订14个项目的合作协议。

技术

4月6日,Apache Hadoop 3.1.0 正式发布了,Apache Hadoop 3.1.0 是2018年 Hadoop-3.x 系列的第一个小版本,并且带来了许多增强功能。不过需要注意的是,这个版本并不推荐在生产环境下使用,如果需要在正式环境下使用,请等待 3.1.1 或 3.1.2 版本。

伴随链家业务线的拓宽和发展,以及数据生态的建设,数据规模快速增长。从2015年大数据部门成立至今,集群数据存储量为9PB,服务器规模为200台+。与此同时,数据需求也随着业务的发展落地不断增长,如统计分析、指标API、运营报表等,不同业务需求差异较大,维度越来越多,需要定制化开发。面对数十亿行级别的数据,低延迟响应的特性,保障服务稳定、数据准确,链家的数据分析引擎经历了如下的发展历程。

HBase中等对象(MOB---MediumObject)存储特性引入是源自社区HBASE-11339。对于中等大小的文档、图像等文件的存储(文件大小从100K到10MB),可降低读取延迟和写入访问时间[1]。通过分离文件的IO路径和MOB文件对象,对文件采取不同的压缩策略,从而减少由于HBase压缩造成的写入扩大。若一个表的MOB文件存储在MOB区域(MOB region)中,则意味着该区域中将存在大量的MOB文件。

hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍常见的hive执行异常,定位和解决方法,以及hive日志查看方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值