Hadoop
文章平均质量分 64
Tech_Hog
这个作者很懒,什么都没留下…
展开
-
数学之美系列二十一 - 布隆过滤器(Bloom Filter)
在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash转载 2014-10-19 12:12:45 · 804 阅读 · 0 评论 -
hive 配置参数说明
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默转载 2014-04-28 15:01:03 · 867 阅读 · 0 评论 -
python 实现Hadoop的partitioner和二次排序
Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程工作流程 : InputFile --> mappers --> [Partitioner] --> reducers --> outputFiles理解 : 1 输入文件,可以是指定远程文件系统内的文件夹下的 *2 通过集群自己分解到各个PC原创 2014-05-10 15:11:04 · 3696 阅读 · 0 评论 -
Hadoop MapReduce 二次排序原理及其应用
目录[-]1、首先说一下工作原理: 2、二次排序 3、具体步骤: 1 自定义key。 2 由于key是自定义的,所以还需要自定义一下类: 4 代码:5 测试需求:6 测试数据与结果:7 原理图(点击查看大图):8、推荐阅读:9、REF:关于二次排序主要涉及到这么几个东西:在0.20.0 以前使用的是setPar转载 2014-05-10 15:15:04 · 1105 阅读 · 0 评论 -
hadoop stream 参数详解
1 hadoop streaming[html] view plaincopyHadoop streaming是和hadoop一起发布的实用程序。它允许用户创建和执行使用任何程序或者脚本编写的map或者reduce的mapreducejobs。譬如, $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/ha转载 2014-05-16 11:07:27 · 894 阅读 · 0 评论 -
分布式系统的事务处理
当我们在生产线上用一台服务器来提供数据服务的时候,我会遇到如下的两个问题:1)一台服务器的性能不足以提供足够的能力服务于所有的网络请求。2)我们总是害怕我们的这台服务器停机,造成服务不可用或是数据丢失。于是我们不得不对我们的服务器进行扩展,加入更多的机器来分担性能上的问题,以及来解决单点故障问题。 通常,我们会通过两种手段来扩展我们的数据服务:1)数据分区:就是把数转载 2014-01-21 17:24:23 · 1121 阅读 · 0 评论 -
《hadoop实战》笔记2
编写MapReduce基础程序MapReduce程序框架计数统计的MapReduce基础程序支持用脚本语言编写MapReduce程序的Hadoop流式API用于提升性能的Combiner高阶MapReduce编程实战细则手册管理Hadoop原创 2014-02-15 15:28:52 · 1506 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
摘要:1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间转载 2014-04-22 11:12:12 · 1078 阅读 · 0 评论 -
基于Hadoop的一些工具的一句话介绍
Pig 是在MapReduce上构建的查询语言(SQL-like),适用于大量并行计算。 Chukwa 是基于Hadoop集群中监控系统,可以用他来分析和收集系统中的数据(日志) Hive 是DataWareHouse 和 Map Reduce交集,适用于ETL方面的工作 HBase 是一个面向列的分布式数据库。转载 2014-04-22 11:09:01 · 1193 阅读 · 0 评论 -
Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
摘要:通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。编者按:HDFS和MapReduce是Hadoop的两大核心,除此之外Hbase、Hive这两个核心工具也随着Hadoop发展变得越来越重要。本文作者张震的博文《Thinking i转载 2014-02-18 09:53:45 · 2157 阅读 · 0 评论 -
初学hadoop的一些学习记录
倒排索引简介倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。有两种不同的反向索引形式:· 一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。· 一个单词的水平原创 2014-01-05 09:49:01 · 3118 阅读 · 2 评论 -
揭秘腾讯大数据之平台综述篇
摘要:腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象。特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,如何从大数据中获取高价值,已经成为大家关心的焦点问题。4月12日,在腾讯分享日的大数据分论坛上腾讯首次对外展现了自己的大数据平台,受到外界的普遍关注,后续我们将持续为大家分享腾讯大数据的方方面面。本篇为综述篇,针对整体情况做概要性的介绍,后续将会有更详细转载 2014-08-14 17:24:43 · 1823 阅读 · 0 评论 -
Hadoop的HDFS和Map/Reduce
HDFSHDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,它具有以下几个特点:1)适合存储非常大的文件2)适合流式数据读取,即适合“只写一次,读多次”的数据处理模式3)适合部署在廉价的机器上但HDFS不适合以下场景(任何东西都要分两面看,只有适合自己业务的技术才是真正的好技术):1)不适合存储大量的小文件,因为受Namenode内原创 2014-08-14 15:53:36 · 1547 阅读 · 0 评论 -
腾讯大规模Hadoop集群实践
摘要:TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案。TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据转载 2014-08-14 14:35:07 · 1400 阅读 · 0 评论 -
通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据
下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。一、Mysql与HDFS互导数据环境:宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装hadoop,并实现免密钥互访,配hosts转载 2014-09-21 17:11:49 · 768 阅读 · 0 评论 -
布隆过滤器(Bloom Filter)Java实现
布隆过滤器原理很简单:就是把一个字符串哈希成一个整数key,然后选取一个很长的比特序列,开始都是0,在key把此位置的0变为1;下次进来一个字符串,哈希之后的值key,如果在此比特位上的值也是1,那么就说明这个字符串存在了。如果按照上面的做法,那就和哈希算法没有什么区别了,哈希算法还有重复的呢。布隆过滤器是将一个字符串哈希成多个key,我还是按照书上的说吧。先建立一个16亿转载 2014-09-09 10:29:51 · 1349 阅读 · 0 评论 -
从VMware虚拟机安装到hadoop集群环境配置详细说明
从VMware虚拟机安装到到hadoop集群环境配置详细说明原创 2014-01-02 14:24:50 · 19084 阅读 · 0 评论 -
hadoop上最多到底能放多少个文件?
这主要取决于NameNode的内存。因为DFS集群运行时,文件结构会保存在NameNode的内存当中。DFS每个文件信息和 块信息大约都要占150字节。所以如果复制因子为1,每个文件占一个block, 那么16G内存可以存 16 * (2^30) / 300 = 57 m , 即5.7 千万 个文件。转自:http://coderplay.iteye.com/blog/3转载 2014-06-19 16:49:50 · 2051 阅读 · 0 评论 -
hive基本用法汇总(部分)
看到的文章,总结的很好,转载一下:原文http://www.jiacheo.org/blog/1261, 创建表?123456CREATETABLEpage_view(viewTimeINT, userid BIGINT,page_url STRING, referrer转载 2014-05-29 13:55:54 · 1364 阅读 · 0 评论 -
VMware workstation8中安装CentOS Linux无法上网的解决方法
流程如下:1)点击 VM->Settings Hardware选项卡下面 2)点击Network Adapter 设置如下图所示,首先我们在虚拟机中将网络配置设置成NAT,3、进入Windows操作系统,然后右键点击我们的电脑,进入到管理界面 计算机-> 管理->服务和应用程序->服务,找到如下服务进程VMAuthdService, VMnet DHCP , VM原创 2013-12-07 10:04:51 · 1450 阅读 · 0 评论 -
linux 的date命令及系统时间设置
Linux时钟分为系统时钟(System Clock)和硬件(Real Time Clock,简称RTC)时钟。系统时钟是指当前Linux Kernel中的时钟,而硬件时钟则是主板上由电池供电的时钟,这个硬件时钟可以在BIOS中进行设置。当Linux启动时,硬件时钟会去读取系统时钟的设置,然后系统时钟就会独立于硬件运作。Linux中的所有命令(包括函数)都是采用的系统时钟设置。在Linux转载 2014-03-25 13:36:34 · 942 阅读 · 0 评论 -
hadoop中hive和hbase的整合应用
hive hbase整合,要求比较多,1.hive的得是0.6.0(当前最新的版本) 2.hive本身要求hadoop的最高版本是hadoop-0.20.2 3.要求hbase的版本是0.20.3,其他版本需要重新编译hive_hbase-handler 但是新版的hbase(0.90)变动特别大,根本无法从编译。这点比较恶心,hbase目前升级比较快,当前是0.90(从0.20.6直转载 2014-03-26 20:18:32 · 935 阅读 · 0 评论 -
VMware下的CentOS Linux系统中安装VMTools详细流程
我用的VMware版本是VMwareWorkstation 8,VMware里面装的linux系统是CentOS 5.10。1. 必须以ROOT身份进入CentOs 2. 进入linux系统,然后按下 CTRL+ALT组合键,进入主操作系统,点击VMware菜单栏中的VM菜单下的”Install VMware Tools”。 3. 这时在CentOS下弹出一个文件夹窗口,将里面原创 2013-12-07 14:06:09 · 2343 阅读 · 0 评论 -
国内第一篇详细讲解hadoop2的automatic HA+Federation+Yarn的教程
前言 hadoop是分布式系统,运行在linux之上,配置起来相对复杂。对于hadoop1,很多同学就因为不能搭建正确的运行环境,导致学习兴趣锐减。不过,我有免费的学习视频下载,请点击这里。hadoop2出来后,解决了hadoop1的几个固有缺陷,比如单点故障、资源利用率低、支持作业类型少等问题,结构发生了很大变化,是hadoop未来使用的一个趋势。当然,配置也更加复杂,网转载 2014-02-22 11:44:48 · 1029 阅读 · 0 评论 -
《hadoop实战》笔记1—分布式编程框架
1. hadoop作为一个数据处理框架,由于大数据量的移动很困难,hadoop采用的机制为将代码发送到集群环境中去,因为集群中有数据和计算(运行)环境,即代码向集群迁移2. SQL处理结构化数据,hadoop针对文本这类非结构化数据;SQL数据库向上扩展(增加单台机性能)时成本高,hadoop向外扩展(增加多台一般商用机)hadoop用键/值对(MapReduce实现)代替SQL数据库原创 2014-02-14 22:20:06 · 1545 阅读 · 0 评论 -
用WinSCP实现CentOS Linux和本地操作系统文件传输
1.先将网络适配器中的VMnet1和Vmnet8启动,如下图红色部分所示2.在windows操作系统下进入命令提示行输入窗口,并输入ipconfig,如下图所示VMnet1的IP地址为192.168.137.13.本地连接属性设置如下图所示4.虚拟机中网络适配器选择Host-only,如下图所示5.之后将虚拟机的CentO原创 2013-12-07 20:02:32 · 5150 阅读 · 0 评论 -
Linux中 “there are stopped jobs”问题的解决方案
在Linux的shell中输入exit或者logout命令是有时会出现“there are stopped jobs”,这是由于按下Ctrl+Z之后使程序或者进程被挂起。可以使之激活或者在后台运行。在shell中输入命令jobs可以查看停止进程列表输入命令jobs -l显示停止进程的详细列表可以通过如下命令杀死或者激活停止的进程:杀死:kill %1(%1是将要被杀死的原创 2013-12-13 16:07:50 · 21787 阅读 · 2 评论 -
VMware Network Adapter VMnet1和VMnet8 未识别的网络的解决方法
VMware Network Adapter VMnet1和VMnet8 被防火墙认定为未识别的网络并将其阻隔,无法使用端口映射,虚拟机的80端口无法传入,数据包只能出不能入。且公用网络被限制不能修改为家庭或工作网络。解决办法:1,进入注册表[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Class\{4D36E972-E3原创 2013-12-08 11:17:47 · 4974 阅读 · 1 评论 -
VMware下Linux虚拟机安装VMware tools完整过程
点击VMware最上面的“虚拟机”菜单选项,并选择下拉菜单中的“安装 VMware Tools”,这时VMware Tools镜像会自动加载复制VMwareTools-8.8.4-743747.tar.gz到桌面,打开终端并转到桌面,cd Desktop解压:tar xzvf VMwareTools-8.8.4-743747.tar.gz转到解压出来的目录:cd vmware-原创 2013-12-25 17:37:17 · 6470 阅读 · 1 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma转载 2013-12-18 21:42:21 · 1172 阅读 · 0 评论 -
Hadoop中的Bloom Filter布隆过滤器介绍
布隆过滤器布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制矢量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。基本概念如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链原创 2014-01-19 11:03:52 · 4774 阅读 · 0 评论 -
winscp 远程管理centos服务器文件教程
Linux上经常会经常需要编辑文件,特别是Linux VPS/服务器安装好系统之后配置环境会需要修改很多的配置文件等,对于常用Linux的基本上都能够熟练使用vi或者nano等SSH下面的文件编辑工具,但是对于新接触VPS或者服务器的Linux新手来说还是稍微有些难度的,今天介绍一款适合新手或者懒人使用的Windows上管理远程Linux VPS/服务器上文件的工具 - winscp。一、转载 2013-12-07 14:25:04 · 3536 阅读 · 0 评论 -
hive学习笔记
1. HIVE结构Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 re转载 2014-05-06 17:31:05 · 1262 阅读 · 0 评论 -
hive cli命令行选项
Hive Command line OptionsUsage: Usage: hive [-hiveconf x=y]* []* [|] [-S] -i Initialization Sql from file (executed automatically and silently before any other commands) -e转载 2014-03-25 19:47:13 · 1000 阅读 · 0 评论 -
Hive Shell 基本操作——深入浅出学Hive
目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程 第一部分:Hive bin下脚本介绍Hive bin下转载 2014-03-25 17:56:30 · 2135 阅读 · 0 评论 -
YARN或将成为Hadoop新发力点
2013年的Hadoop峰会上,YARN是一个热点话题,YARN本质上是Hadoop的新操作系统,突破了MapReduce框架的性能瓶颈。Murthy认为Hadoop和YARN的组合是企业大数据平台致胜的关键。Yahoo!最初开发Hadoop,是为了用于搜索和索引Web网页,目前很多的搜索服务都是基于这个框架的,但是Hadoop从本质上来说还只是一个解决方案。2013年的Hadoop峰转载 2014-03-31 20:48:07 · 855 阅读 · 0 评论 -
hadoop stream 参数详解
原文地址:streaming" style="background-color:inherit">Hadoop streaming作者:tivoli_chen1 hadoop streamingHadoop streaming是和hadoop一起发布的实用程序。它允许用户创建和执行使用任何程序或者脚本编写的map或者reduce的mapreducejobs。譬如,$HADOOP_H转载 2014-03-20 15:20:07 · 1137 阅读 · 0 评论 -
hadoop各种问题收录(学习笔记)
hadoop各种问题收录(学习笔记)原创 2014-01-14 11:28:28 · 2725 阅读 · 0 评论 -
hadoop新手学习线路指南
声明:全部来源于网络,仅供参考hadoop使用场景大数据量存储:分布式存储日志处理: Hadoop擅长这个海量计算: 并行计算ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache Mahout原创 2014-01-17 16:24:44 · 3337 阅读 · 4 评论 -
VMware模拟机CentOS的网络设置
一、VMware提供了两个虚拟的网络连接,VMnet1和VMnet8,安装VMware后,系统中会出现这两个网络连接。如果没有这两个网络连接,说明VMware安装不正确。二、CentOS通过VMnet1或VMnet8进行网络通信。在CentOS中,“Virtual Machine Settings”--"Network Adapter"项目下,如果选择“Host-only: A priva转载 2013-12-08 09:49:21 · 1311 阅读 · 0 评论