数据生态
文章平均质量分 79
「已注销」
这个作者很懒,什么都没留下…
展开
-
Induction to Hadoop
induction to hadoop: Yarn:管理多个不同的集群,提升资源利用率; HIVE:能将HQL转化为map-reduce作业; Mahout:提供了数据挖掘库,包含丰富的大数据相关算法; HBase:Table,Column Family,Row key:主键,Timestamp:时间戳(版本号); Zookeeper:解决分布式环境下数据管理问题(统一命名,状态同步,集原创 2015-08-14 01:24:48 · 346 阅读 · 0 评论 -
Tips for Storm
Storm: spout,tuple,bolt Storm记录级容错原理: A xor A = 0 A xor B … xor B xor A =0,其中每个操作数出现且仅出现两次。 在storm做实时计算,必须创建topology;topology是计算图,其中每个节点包含一个处理逻辑,节点之间的链接表明了数据如何在节点之间被传输。 sorm的核心是stream,stream是无边界原创 2015-08-02 20:45:55 · 314 阅读 · 0 评论 -
mongoDB快速入门
mongoDB入门: mongoDB常用于前端数据加速读写,提升用户体验,且不涉及原子复杂事务,或者用于表字段不确定的场景,主要针对一些廉价数据。 BSON : JSON扩展,增加了新的数据类型,而且能转成二进制码存储; mongoDB 表: 集合list ; 表的一行数据(对象{}) : 文档document; mongoDB查询使用内置的find函数,基于BSON的特殊查询工具原创 2015-09-04 00:16:47 · 343 阅读 · 0 评论 -
linux文本处理三剑客
linux文本处理三剑客: linux正则表达式:用于快速过滤、替换需要的内容 linux三剑客:grep(文本抓取器)、sed(流编辑器)、awk(报表生成器) 基于grep linux命令基于行处理 ^winber 以winber开头 win$ 以win结尾 ^$ 表示空行,不是空格 . 代表且只能代表任意一个字符 (其他功能:当前目录,加载文件) \ 转义字原创 2016-03-22 23:23:17 · 848 阅读 · 0 评论