大数据
绝地反击T
世界那么大,我想去看看。
展开
-
转:网页爬取页面去重策略
网上搜集到的网页去重策略:1.通过MD5生成电子指纹来判断页面是否改变2.nutch去重策略:nutch中digest是对采集的每一个网页内容的32位哈希值,如果两个网页内容完全一样,它们的digest值肯定会一样,但哪怕其中之一多或少一个空格,它们的digest值就会不一样。所以,我认为,用digest做id是一个非常不错的选择。 如果nutch在两次不同的时间抓某个网页,例如转载 2015-09-25 22:42:11 · 3101 阅读 · 0 评论 -
转:Nutch-2.2.1脚本分析
为了对Nutch进行定制化,需要看懂Nutch的源码。 版本:2.2.1 最新版本 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~· ?123我们知道执行nutch时,会敲入./bin/nutch通过查看nutch的内容,我们知道这是一个shell脚本 ?转载 2015-09-25 23:46:23 · 719 阅读 · 0 评论 -
转:Google大数据三篇著名论文中文版
Google File System中文版Google MapReduce中文版Google Bigtable中文版转载 2015-10-02 22:54:39 · 7997 阅读 · 1 评论 -
hadoop学习笔记之分布式计算框架
分布式计算框架:移动计算而不是移动数据,移动计算就是把你写好的计算程序拷贝到不同的计算节点上运行MapReduce适合做离线计算Storm适合做流失计算Spark适合做内存计算框架从HDFS上存储的数据作为我们MapReduce的一个输入,首先把一个文件切成片,然后map计算 接着shuffle,接着reduce,最终把结果存储在HDFS文件系统上面。原创 2015-10-04 19:02:55 · 1004 阅读 · 0 评论 -
Hive简介
Hive是构建在Hadoop HDFS上的一个数据仓库,本质就是一个数据库Hadoop和hive都是基于Linux操作系统构建的Hive可以用来进行数据提取转化加载(ETL)Hive定义了简单的类似SQL查询语言,称之为HQL,它允许熟悉SQL的用户查询数据Hive是HQL解析引擎,他将SQL语句转移成M/R Job然后在Hadoop执行hive的表其实就是HDFS原创 2015-09-21 00:26:39 · 711 阅读 · 0 评论 -
Hive定义、Hive与HBase关系、Hive与RDBMS的关系、数据库与数据仓库的区别
1、Hive定义Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reduc原创 2015-09-23 22:38:50 · 3745 阅读 · 0 评论 -
hadoop中各个名词的用途
NameNode:元数据服务器Secondary NameNode:辅助元数据服务器JobTracker:任务调度器DataNodes:块存储TaskTrackers:任务执行原创 2015-11-13 22:21:01 · 1582 阅读 · 0 评论 -
配置hadoop各个节点之间免密码登录实践笔记
前言: 最近在搭建Hadoop环境需要设置无密码登陆,所谓无密码登陆其实是指通过证书认证的方式登陆,使用一种被称为"公私钥"认证的方式来进行ssh登录。在linux系统中,ssh是远程登录的默认工具,因为该工具的协议使用了RSA/DSA的加密算法.该工具做linux系统的远程管理是非常安全的。telnet,因为其不安全性,在linux系统中被搁置使用了。原创 2015-11-17 21:12:36 · 6215 阅读 · 0 评论