分布式计算
文章平均质量分 74
RYP_S
这个作者很懒,什么都没留下…
展开
-
两款高性能并行计算引擎Storm和Spark比较
Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。所以这是把过程传递给数据。这和Hadoop map/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法(前一步计算输出是下一步计算的输入)性能更高。Shark只是一个基于Spark的查询引擎(支持ad-hoc临时性的分析转载 2014-12-08 17:43:05 · 548 阅读 · 0 评论 -
Nutch1.8分布式抓取网页
用了大概一周左右的时间,yanjiue原创 2014-06-03 14:53:25 · 2369 阅读 · 0 评论 -
2014年值得关注的十个Hadoop大数据创业公司
2014年值得关注的十个Hadoop大数据创业公司开源大数据框架Apache Hadoop已经成了大数据处理的事实标准,同时也几乎成了大数据的代名词,虽然这多少有些以偏概全。根据Gartner的估计,目前的Hadoop生态系统市场规模在7700万美元左右,2016年,该市场规模将快速增长至8.13亿美元。但是在Hadoop这个快速扩增的蓝海中游泳并非易事,不仅开发大数据转载 2014-05-29 13:55:18 · 785 阅读 · 0 评论 -
nutch-1.8爬虫网页中文乱码的处理
Nutch1.8在使用默认网页解析插件解析网页文本时,有些网页会出现在乱码问题。原创 2014-08-01 10:13:40 · 2678 阅读 · 1 评论 -
使用Hadoop har归档历史文件(小文件)
原文链接:http://heipark.iteye.com/blog/1356063应用场景我们的hdfs中保存大量小文件(当然不产生小文件是最佳实践),这样会把namenode的namespace搞的很大。namespace保存着hdfs文件的inode信息,文件越多需要的namenode内存越大,但内存毕竟是有限的(这个是目前hadoop的硬伤)。下面图片展示了,har文档的结构。转载 2013-09-22 23:29:54 · 2498 阅读 · 0 评论 -
oozie 常用命令
一、客户端命令1.提交作业,作业进入PREP状态 oozie job -oozie http://localhost:11000/oozie -config job.properties -submit job: 14-20090525161321-oozie-joe2.执行已提交的作业oozie job -oozie http://localhost:11000/ooz原创 2013-11-30 12:45:31 · 6264 阅读 · 0 评论 -
Hadoop安全模式
今天运行hadoop fs -ls时,遇到以下提示:原创 2014-06-05 15:30:22 · 621 阅读 · 0 评论 -
spark相关书籍
1、大数据技术丛书:Spark快速数据处理,其实就是《Fast Data Processing with Spark》英文书的翻译版本,一共就114页,讲的非常浅显,还不如直接看英文的。样本下载:http://download.csdn.net/detail/w397090770/82352152、Spark大数据处理:技术、应用与性能优化,高彦杰著。很多人反映书中代码没有格式化,甚至没有原创 2016-02-25 10:06:48 · 1731 阅读 · 0 评论 -
大数据处理的关键架构
大数据如火如荼的火热着,互联网上资源又让人眼花缭乱不知如何下手,对于新手和准备成为大数据工程师的童鞋更是如此,此博文总结了网上一些知识,希望对大家有帮助。下图是大数据处理的各个架构层:以下一一简介各个层,使大家对这块知识有个总体把握:一、数据存储层宽泛地讲,据对一致性(consistency)要求的强弱不同,分布式数据存储策略,可分为ACID和BASE两大阵营。翻译 2016-06-08 11:18:24 · 8815 阅读 · 0 评论 -
Pig Distinct by fields
PIG自带的distinct只支持整条记录相同的过滤,并不支持对某些字段的distinctPIG的说明如下You cannot use DISTINCT on a subset of fields. To do this, use FOREACH…GENERATE to select the fields, and then use DISTINCT (seeExample: Nest转载 2014-01-06 18:34:36 · 569 阅读 · 0 评论 -
Windows下Nutch的使用
Nutch使用方法简介 目前Nutch采用Sehll的启动方式,如果您使用的是Windows系统,那么首先需要安装Cygwin。本文就以在Windows中为例,介绍Nutch的安装和使用方法。 (1)准备需要的软件列表 Cygwin (下载地址:http://www.cygwin.com/setup.exe) Jdk(1.4.2以上版本,转载 2014-05-23 13:46:58 · 769 阅读 · 0 评论 -
淘宝数据魔方技术架构解析
因为对海量数据有极大兴趣,看到网上关于《淘宝数据魔方技术架构解析》,很是兴奋,就复制过来了。原文网址:http://kb.cnblogs.com/page/110840/摘要: 淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据 ...转载 2013-07-10 17:15:57 · 1068 阅读 · 0 评论 -
Linux下nutch1.8-bin部署及问题总结
Nutch1.8:基本环境搭建和使用Nutch是一个开源的搜索引擎,包括抓取、索引、搜索,不过主要是抓取。说明:Nutch有两个主版本1.X和2.X,主要区别是2.X引入了存储抽象层,从而支持各种NoSQL数据库,如HBase、Cassandra等。本文介绍1.8版本。环境准备:Linux服务器,可以装在VMware虚拟机中。下载Nutch1.8,有src和bin两种包原创 2014-05-23 16:05:53 · 2107 阅读 · 4 评论 -
Pig的简单介绍
Pig是Yahoo!捐献给Apache的一个项目,目前还在Apache孵化器(incubator)阶段,目前版本是v0.5.0。Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。本文介绍了Pig的安转载 2013-12-13 17:29:15 · 851 阅读 · 0 评论 -
使用Hadoop API操作HDFS文件时遇到的问题及解决总结
1、报错信息“提示找不到或无法加载主类” 函数中有无main方法2 你用java 命令 时输入的类名是否正确。3 classpath设置是否正确。4 (很可能就是这个问题)看你的类是否是在某一个包下面(即类文件中有package person;类似的内容); 如果有得话,你千万不要在命令行窗口中进到person这个包的目录下,去编译运行java类, 而要到 包原创 2014-07-11 14:14:08 · 5225 阅读 · 0 评论 -
Hadoop源代码组织结构
直接解压Hadoop压缩包后,可看到图1-11所示的目录结构,其中,比较重要的目录有src、conf、lib、bin等。下面分别介绍这几个目录的作用:src:Hadoop源代码所在的目录。最核心的代码所在子目录分别是core、hdfs和mapred,它们分别实现了Hadoop最重要的三个模块,即基础公共库、HDFS实现和MapReduce实现。conf:配置文件所在目录。Hadoo转载 2014-07-09 18:04:59 · 766 阅读 · 0 评论 -
win7下Apache ant的安装与配置
下载Apache antapache-ant-1.9.4原创 2014-05-27 18:32:01 · 2278 阅读 · 0 评论 -
nutch中bin/crawl和bin/nutch crawl的用法
nutch中bin/crawl和bin/nutch crawl的用法原创 2014-05-27 16:45:43 · 7165 阅读 · 1 评论 -
分布式消息系统Kafka初步
终于可以写kafka的文章了,Mina的相关文章我已经做了索引,在我的博客中置顶了,大家可以方便的找到。从这一篇开始分布式消息系统的入门。在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题: l 我想分析一下用户行为(pageviews),以便我能设计出更好的广告位 l 我想对用户的搜索关键词进行统计,分析出当前的流行趋势。这个很有意思,在经济学上有转载 2014-12-24 16:01:56 · 540 阅读 · 0 评论 -
Storm实战常见问题及解决方案
该文档为实实在在的原创文档,转载请注明:http://blog.sina.com.cn/s/blog_8c243ea30101k0k1.html类型详细备注该文档是群里几个朋友在storm实战中遇到的一些问题,及其对应解决办法。 相关描述² 其他相关文档请参考新浪博客http://blo转载 2017-01-11 15:34:04 · 559 阅读 · 0 评论