云计算
link z
这个作者很懒,什么都没留下…
展开
-
Nutch抓取过程简析
Nutch的数据文件: crawldb: 爬行数据库,用来存储所要爬行的网址。 linkdb: 链接数据库,用来存储每个网址的链接地址,包括源地址和链接地址。 segments: 抓取的网址被作为一个单元,而一个segment就是一个单元。 crawldb crawldb中存放的是url地址,第一次根据所给url :http://blog.t原创 2016-03-03 11:38:18 · 870 阅读 · 0 评论 -
nutch入门之本地安装运行
最近hadoop着实很火,平时玩hadoop没有数据也很头疼,还好有nutch这个开源框架,可以从网上爬取数据。本身nutch也依赖hadoop来抓取数据,正好一举两得,在学习nutch的过程中也提高对hadoop的认识,下面我会在业余时间整体对nutch的安装部署使用做一个比较全的描述,希望大家也一起共同进步吧~~ 1、安装nutch通过它的二进制分发包 a、下载转载 2016-01-12 15:32:11 · 457 阅读 · 0 评论 -
hadoop配置含义
问题导读:1、Hadoop高效配置,哪些是必要的?2、各个参数又是什么意思 ?自己添加:dfs.datanode.du.reserved :表示在datanode对磁盘写时候,保留多少非dfs的磁盘空间,从而避免dfs将所在的磁盘写满 ,但在0.19.2中该参数存在bug 。I introduced "ipc.server.listen.queue.si转载 2016-01-14 09:54:44 · 691 阅读 · 0 评论 -
hadoop开发方式总结及操作指导
本文为操作指导1.如何引用外部包?2.使用插件开发端口如何设置?如果你已经比较熟悉了,可以思考:1.hadoop脱离集群开发,加入外部包的作用是什么?2.Hadoop eclipse plugin的作用是什么,自己能否设计一个Hadoop eclipse plugin,该如何开发和设计?在我们的传统开发中,一般都是有一定的开发工具。比如.ne转载 2016-01-14 09:56:23 · 347 阅读 · 0 评论 -
Hadoop Shell命令字典
1.chmod与chown的区别是什麽?2.cat将路径指定文件的内容输出到哪里?3.cp能否是不同之间复制?4.hdfs如何查看文件大小?5.hdfs如何合并文件?6.如何显示当前路径下的所有文件夹和文件7.rm删除文件失败的原因什么?8.如何查看文件的创建时间9.查看文件命令的内容有哪些?能否说出三种?10.如何判断文件是否存在?11.如何创建0字节文件转载 2016-01-14 09:57:27 · 464 阅读 · 0 评论 -
hive支持sql大全
hive操作数据库还是比较方便的,因此才会有hbase与hive整合。下面我们hive的强大功能吧。为了增强阅读性,下面提几个问题:hive支持哪些运算符?hive是否支持左右连接?hive如何截取字符串?hive提供了那些系统函数?目录一、关系运算:... 41. 等值比较: =. 42. 不等值比较: 3. 小于比较: 4转载 2016-01-14 09:59:45 · 973 阅读 · 0 评论 -
Hive配置文件中配置项的含义详解
这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用。更多内容,可以查看内容问题导读:1.hive输出格式的配置项是哪个?2.hive被各种语言调用如何配置?3.hive提交作业是在hive中还是hadoop中?4.一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项?5.当用户自定义了UDF或者SerDe,这些插件的jar都转载 2016-01-14 10:01:26 · 544 阅读 · 0 评论 -
Nutch命令详解
Nutch采用了一种命令的方式进行工作,其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。要看Nutch的命令说明,可执行"Nutch"命令。 下面是单个命令的说明:crawlcrawl是"org.apache.nutch.crawl.Crawl"的别称,它是一个完整的爬取和索引过程命令。转载 2016-01-14 10:03:49 · 769 阅读 · 0 评论 -
最近遇到nutch导入eclipse后产生到一些问题
首先说一下安装nutch到步骤。1.下载apache-nutch-1.6-src.tar.gz2.解压到 nutch目录3.修改nutch-site.xml、http.agent.namenutch1.6 http.robots.agents nutch1.6,* The agent strings we'll look for in robo原创 2016-01-15 16:51:08 · 393 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
推荐引擎图 1. 推荐引擎工作原理图图 1 给出了推荐引擎的工作原理图,这里先将推荐引擎看作黑盒,它接受的输入是推荐的数据源,一般情况下,推荐引擎所需要的数据源包括:要推荐物品或内容的元数据,例如关键字,基因描述等;系统用户的基本信息,例如性别,年龄等用户对物品或者信息的偏好,根据应用本身的不同,可能包括用户对物品的评分,用户查看物品的记录,用户的购买记录等。其实这些用户的偏好转载 2016-01-27 15:27:07 · 281 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类
聚类分析什么是聚类分析?聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。所以,在很多应用中,一个簇中的数据对象可以被作为一个整体来对待,从而减少计算量或者提高计算质量。其实聚类是一个人们日常生活的常见行为,即所谓“物以类聚,人以群分”,核心的思想也就是聚类。人们总是不断转载 2016-01-27 15:31:56 · 367 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程, 第 1 部分
Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。本文将介绍 MapReduce 计算模型,分布式并行计算等基本概念,以及 Hadoop 的安装部署和基本运行方法。Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框转载 2016-02-19 14:38:36 · 398 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程, 第 2 部分
Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。在本文中,详细介绍了如何针对一个具体的并行计算任务,基于 Hadoop 编写程序,如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译并运行 Hadoop 程序。前言在上转载 2016-02-19 14:42:30 · 279 阅读 · 0 评论 -
用 Hadoop 进行分布式并行编程, 第 3 部分
Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。在本文中,详细介绍了如何部署 Hadoop 分布式运行环境,如何让程序分布式运行于多台普通的计算机上,如何使用 IBM MapReduce Tools 轻松地将 MapReduce 程序部署到 Hadoop 分布式转载 2016-02-19 14:44:25 · 337 阅读 · 0 评论 -
对nutch爬虫的一些理解
下图提供网上找来的相关流程图片,以便于理解: 总结如下: 1) 建立初始 URL 集 2) 将 URL 集注入 crawldb 数据库---inject 3) 根据 crawldb 数据库创建抓取列表---generate 4) 执行抓取,获取网页信息---fetch5) 解析抓取的内容---parse segment 6) 更新数据库,原创 2016-03-03 11:19:42 · 2777 阅读 · 0 评论 -
Nutch抓取数据内容的详解
命令:$ bin/nutch crawl tianya -dir crawl_tianya -depth 3 -topN 10(存放seed路径在tianya目录下)抓取过程为:Injector-》 Generator-》Fetcher-》ParseSegment-》CrawlDb update depth=1原创 2016-03-03 18:15:49 · 4037 阅读 · 0 评论 -
Hadoop多节点集群安装配置
1、集群部署介绍1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统HDFS(Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。对于Hadoop的集群来讲,可以分成两大类角色转载 2016-01-08 11:14:42 · 429 阅读 · 0 评论