重拾初心——Sqoop1和Sqoop2的刨析对比

Sqoop是一款开源的工具,主要用于在Hadoop和传统的数据库(MySQL、postgresql等)进行数据的传递,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。 Sqoop目...
阅读(3067) 评论(3)

《hadoop进阶》基于hadoop和hive的微博热词跟踪系统

利用hadoop来做一个类似于微博热词的系统,涉及到了中文分词,hadoop的mr计算,hive创建分区表,以及jfreechart的可视化,欢迎吐槽...
阅读(1242) 评论(0)

hadoop提交jar包卡住不会往下执行的解决方案

这是一个很蛋疼的问题,说实话在以前玩这个hadoop集群,不管是伪分布式还是集群都没有注意过分配内存这个问题,即job执行时的内存分配,然后在今天遇到了,搞了好久错误描...
阅读(1471) 评论(1)

使用python的hdfs包操作分布式文件系统(HDFS)

使用python的hdfs包操作HDFS文件系统,实例+参数的详细说明,参考官网资料整理的一篇博客...
阅读(6291) 评论(3)

三台PC服务器部署Hadoop HA(Hadoop 高可用性架构)

之前是在自己电脑上部署的hadoop集群,但并未涉及到HA配置,这次将集群迁移到PC服务器,但是问题来了,只有三台,但是我还想配置HA,PC服务器是CentOS6.5,原来想着在上边部署VM,从而部署HA集群,但经测试,未果,遂弃之,就想到了在三台机器上部署HA集群。...
阅读(3310) 评论(0)

基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装

写在前边的话        hadoop2.7完全分布式安装请参考:点击阅读,继任该篇博客之后,诞生了下面的这一篇博客        基本环境:               CentOS 6.5,Hadoop 2.7,Java 1.7               Hive 2.0.0,Zookeeper 3.4.8, Hbase 1.2.2        预安...
阅读(5742) 评论(7)

基于hadoop集群的Hive1.2.1、Hbase1.2.2、Zookeeper3.4.8完全分布式安装

基于hadoop 2.7 的完全分布式集群部署 hive 2.0.0, Zookeeper 3.4.8 和 Hbase 1.2.2...
阅读(3518) 评论(0)

VM+CentOS+hadoop2.7搭建hadoop完全分布式集群

写在前边的话:        最近找了一个云计算开发实习生的工作,本以为来了会直接做一些敲代码,处理数据的活,没想到师父给了我一个课题“基于质量数据的大数据分析”,NameNode问题来了首先要做的就是搭建这样一个平台,毫无疑问,底层采用hadoop集群,在此之上,进行一些其他组件的安装和二次开发,整体架构如下:          一:安装VM 12.x      下载地址:http://...
阅读(6400) 评论(5)

hadoop中NameNode、DataNode、Secondary、NameNode、ResourceManager、NodeManager 介绍

1:NameNode 2:SecondNameNode 3:DataNode 4:ResourceManage 1、NameNode介绍        Namenode 管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个,分别是Namespace 镜像...
阅读(6341) 评论(0)

《Hadoop进阶》利用Hadoop构建豆瓣图书推荐系统

转载请注明出处: 转载自  Thinkgamer的CSDN博客:blog.csdn.net/gamer_gyt 代码下载地址:点击查看 1:推荐系统概述 2:需求分析:推荐系统的指标设计 3:算法模型:基于物品的协同过滤并行算法设计 4:架构设计:推荐系统架构 5:程序实现:MR2V程序实现 6:推荐系统评估 一、推荐...
阅读(10109) 评论(7)

《hadoop进阶》PeopleRank从社交关系中挖掘价值用户

转载请注明出处: 转载自  Thinkgamer的CSDN博客: blog.csdn.net/gamer_gyt 代码下载地址:点击查看 1:PageRank 与 PeopleRank 2:需求分析:挖掘CSDN博客的价值用户 3:算法模型:PeopleRank算法 4:架构设计:从数据准备到PR算法的MR化 5:程序开发:hadoop实现PeopleRank算法...
阅读(10434) 评论(2)

[置顶] 《hadoop进阶》web日志系统 KPI指标的分析与实现

1:Web日志分析系统概述 2:需求分析:日志提取预处理,KPI指标设计,存储与展现 3:算法模型:Hadoop并行算法 4:架构设计:用Maven构建hadoop项目 5:程序实现:MR2V程序实现 6:结果可视化 一:Web日志分析系统概述 Web日志由Web]服务器产生,可能是Nginx,Apache,Tomcat等,从Web日志中我们可以提取到很多有用的信息,比如说网...
阅读(10092) 评论(3)

eclipse编写MapReduce程序依赖的JAR包

吐槽一下:        小编之前编写MR程序都是把hadoop解压之后的所有文件全部BuildPath进去的,近期发现这样不行,不能长久做,如果要把程序打包成jar文件在终端运行的话,是不是会太..... 所以小编就一顿尝试下,先是尝试安装maven,可是发现在Ubuntu的eclipse整了好久也没OK,就放弃了 如需转载:请注明出处,说实话过程很心酸....... 网上现有版本...
阅读(1963) 评论(0)

Java 封装 HDFS API 操作

Java实现对HDFS API 的封装实现了常用的操作 判断某个文件夹是否存在 isExist(folder); 创建文件夹 mkdir(folder); 删除文件夹 rmr(folder); 列出所有文件夹 ls(folder); 递归列出所有文件夹 lsr(fol...
阅读(1489) 评论(0)

Hadoop1.X 与 Hadoop2.X比较

鉴于好久没有更新博客,且最近开始找工作,所以对以往的相关知识进行整理 一:Haddop版本介绍 0.20.x版本最后演化成了现在的1.0.x版本 0.23.x版本最后演化成了现在的2.x版本 hadoop 1.0 指的是1.x(0.20.x),0.21,0.22 hadoop 2.0 指的是2.x,0.23.x CDH3,CDH4分别对应了hadoop1.0 h...
阅读(1470) 评论(0)

HDFS学习笔记

1.1、数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。 1.2、元数据节点(Namenode)和数据节点(datanode) ...
阅读(976) 评论(0)

HDFS Federation(HDFS 联邦)(Hadoop2.3)

最早接触Federation这个词还是第一家公司用的DB2联邦数据库。 第一代Hadoop HDFS:   结构上由一个namenode和众多datanode组成。 功能上划分为namespace和block storage service 两部分。   所谓的HDFS Federation就是有多个namenode(或者说namespace)。 ...
阅读(1402) 评论(0)

hdfs之快照的学习

HDFS快照是文件系统的只读的实时的拷贝,可以是文件系统的一部分或者整个文件系统。快照的一些通用场景是数据备份,对用户错误的保护和灾难恢复。HDFS的快照实现是高效的: 快照的创建时瞬间完成的,排除查找inode的时间,需要花费O(1),即常数时间。只有执行与快照相关的修改时才需要额外的内存,内存开销为O(M),M为修改的文件或者目录的数量。DataNodes中的块不会被复制,快照文...
阅读(1077) 评论(0)

hadoop2.6伪分布+pig0.15+zookeeper3.4.6安装

一、hadoop2.6伪分布安装请参考:http://blog.csdn.net/gamer_gyt/article/details/46793731 二、pig0.15安装 Pig的介绍         Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce...
阅读(1448) 评论(1)

hadoop命令——hdfs

hadoop hdfs常用命令...
阅读(1014) 评论(0)
22条 共2页1 2 下一页 尾页
    Thinkgamer微博
    个人微信,一起交流!

     扫一扫,关注我




    个人资料
    • 访问:636159次
    • 积分:8376
    • 等级:
    • 排名:第2255名
    • 原创:208篇
    • 转载:24篇
    • 译文:2篇
    • 评论:221条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论