分布式和NoSQL
文章平均质量分 76
preterhuman_peak
这个作者很懒,什么都没留下…
展开
-
hive优化总结
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几原创 2014-10-31 09:21:58 · 30388 阅读 · 5 评论 -
社会化海量数据采集爬虫框架搭建
原文地址: http://www.lanceyan.com/tech/arch/snscrawler.html随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一原创 2015-01-16 15:50:30 · 1421 阅读 · 0 评论 -
Hive基本命令整理
创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表,结构与其他一样hive> create table n原创 2015-02-09 19:22:14 · 1272 阅读 · 0 评论 -
Google Spanner原理:地球上最大的单一数据库
真正统治世界的 10 大算法不久前的某一天,我在浏览Reddit发现了一篇有趣的文章《统治世界的十大算法》,作者George Dvorsky在那篇文章中试图解释算法之于当今世界的重要性,以及哪些算法对人类文明最为重要。此时此刻,如果你已经学过算法的话,那么在你阅读那篇文章时,你脑海中所浮现的第一件事也许是“作者是否明白算法是什么?”或是“Face翻译 2014-10-23 16:42:46 · 1757 阅读 · 0 评论 -
网络爬虫的乱码处理
原文地址:http://www.cnblogs.com/agileblog/p/3615250.html关于爬虫乱码有很多群友的各式各样的问题,下边简单总结下关于网络爬虫的乱码处理。注意,这里不仅是中文乱码,还包括一些如日文、韩文 、俄文、藏文之类的乱码处理,因为他们的解决方式 是一致的,故在此统一说明。 网络爬虫,有两种选择,一是选择nutch、hetriex,二是原创 2015-01-05 11:56:26 · 24933 阅读 · 3 评论 -
Hive的访问接口
Hive提供了三种客户端访问接口:1)Hive CLI(Hive Command Line,Hive命令行),客户端可以直接在命令行模式下进行操作。2)hwi(Hive Web Interface,Hive Web接口),Hive提供了更直观的Web界面3)hiveserver,Hive提供了Thrift服务,Thrift客户端目前支持C++/Java/PHP/Python原创 2015-02-09 19:21:03 · 13656 阅读 · 0 评论