Hadoop 容错之1.X的单点故障 到 2.X的HA和HDFS Federation

hadoop十年的发展从1.x到2.x的演变,可谓发生了巨大的变化,不管是架构还是资源调度都是经历彻彻底底的改变,本篇博客着重介绍hadoop从1.x到2.x的单点故障的解决过程,和对应的解决办法...
阅读(1724) 评论(0)

三台PC服务器部署Hadoop HA(Hadoop 高可用性架构)

之前是在自己电脑上部署的hadoop集群,但并未涉及到HA配置,这次将集群迁移到PC服务器,但是问题来了,只有三台,但是我还想配置HA,PC服务器是CentOS6.5,原来想着在上边部署VM,从而部署HA集群,但经测试,未果,遂弃之,就想到了在三台机器上部署HA集群。...
阅读(4253) 评论(0)

使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计

本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客 以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难,但幸好最终都解决了这些问题,而得到了正确的结果,这里我们不解释具体的spark语法之类的,着重于解决中文分词统计这个问题 同步github地址:点击查看...
阅读(5239) 评论(4)

基于Spark和Hive进行的豆瓣电影数据分析

自己做的一个关于豆瓣电影数据的一些分析,主要采用的是Spark和Hive,Python作为基础实现,也设计了中文分词统计,hadoop等内容...
阅读(5892) 评论(10)

关于Hive中的复杂数据类型Array,Map,Structs的一些使用案例

写在前边的话:         同样是在做豆瓣电影数据分析的小课题的时候遇到的一个问题:hive表中的电影类型存储格式为array,那么我如何针对每一个类型做统计呢?         本来是想在基于豆瓣电影数据进行相关的数据分析项目      中进行相关解释说明的,仔细想了下,刚好拿出来,对hive的三个复杂数据类型做一个总结性的学习...
阅读(8495) 评论(0)

IDEA构建Spark编程环境和用Scala实现PageRank算法

Idea 搭建Spark开发环境,并测试运行SparkPI示例,Shell脚本运行PageRank算法,打包在Spark集群上运行...
阅读(1728) 评论(0)

09.Apache 2.4 基于端口配置多个Diango项目

写在前边的话:        基于多端口配置普通的web项目是非常简单的,大家上网搜索就能得到很多答案,而且不会出错,然而在配置Django的多端口时,却出现了各种bug,苦苦的折腾了一晚上        环境 说明:              服务器 Windows Server 2008              Apache 2.4.4              Python 2....
阅读(1818) 评论(1)

带你走进Spark编程之Scala入门

1:什么是Scala? Scala是一门多范式的编程语言,类似于Java,并集成了面向对象编程和函数式编程的各种特性,具体可参考知乎上的一个帖子 2:本篇博客包含哪些内容? Scala中变量的声明与函数定义 Scala中的控制结构 Scala中的数据类型 Scala中的类详解...
阅读(3239) 评论(0)

Hive的内置服务和hiveserver/hiveserver2的比较

两者都允许远程客户端使用多种编程语言,通过HiveServer或者HiveServer2,客户端可以在不启动CLI的情况下对Hive中的数据进行操作,连这个和都允许远程客户端使用多种编程语言如java,python等向hive提交请求,取回结果(从hive0.15起就不再支持hiveserver了),但是在这里我们还是要说一下hiveserver HiveServer或者HiveServer2都是基于Thrift的,但HiveSever有时被称为Thrift server,而HiveServe...
阅读(14448) 评论(12)

Spark集群启动python shell错误: Could not resolve hostname localhost: Temporary failure

Spark启动bin/pyspark报错:socket.gaierror: [Errno -3] Temporary failure in name resolution的解决办法...
阅读(3024) 评论(0)

基于hadoop2.7集群的Spark2.0,Sqoop1.4.6,Mahout0.12.2完全分布式安装

写在前边的话        hadoop2.7完全分布式安装请参考:点击阅读,继任该篇博客之后,诞生了下面的这一篇博客        基本环境:               CentOS 6.5,Hadoop 2.7,Java 1.7               Hive 2.0.0,Zookeeper 3.4.8, Hbase 1.2.2        预安...
阅读(7174) 评论(7)

基于hadoop集群的Hive1.2.1、Hbase1.2.2、Zookeeper3.4.8完全分布式安装

基于hadoop 2.7 的完全分布式集群部署 hive 2.0.0, Zookeeper 3.4.8 和 Hbase 1.2.2...
阅读(4734) 评论(0)

VM+CentOS+hadoop2.7搭建hadoop完全分布式集群

写在前边的话:        最近找了一个云计算开发实习生的工作,本以为来了会直接做一些敲代码,处理数据的活,没想到师父给了我一个课题“基于质量数据的大数据分析”,NameNode问题来了首先要做的就是搭建这样一个平台,毫无疑问,底层采用hadoop集群,在此之上,进行一些其他组件的安装和二次开发,整体架构如下:          一:安装VM 12.x      下载地址:http://...
阅读(9686) 评论(6)

Centos6.5使用yum安装mysql——快速上手必备

第1步、yum安装mysql [root@stonex ~]#  yum -y install mysql-server 安装结果: Installed:     mysql-server.x86_64 0:5.1.73-3.el6_5                                                                              ...
阅读(1186) 评论(0)

Python调用微博API获取微博内容

一:获取app-key 和 app-secret     使用自己的微博账号登录微博开放平台(http://open.weibo.com/),在微博开放中心下“创建应用”创建一个应用,应用信息那些随便填,填写完毕后,不需要提交审核,需要的只是那个app-key和app-secret 二:设置授权回调页     在“微博开放平台”的“管理中心”找到刚才创建的应用,点开这个应用,点开...
阅读(4303) 评论(2)

Spark的运行架构分析(二)之运行模式详解

在上一篇博客  spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式...
阅读(5140) 评论(1)

Spark的运行架构分析(一)之架构概述

1:Spark的运行模式 2:Spark中的一些名词解释 3:spark的运行基本流程 一:Spark的运行模式         Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的S...
阅读(7506) 评论(1)

Spark 的键值对(pair RDD)操作,Scala实现

一:什么是Pair RDD?          Spark为包含键值对对类型的RDD提供了一些专有操作,这些操作就被称为Pair RDD,Pair RDD是很多程序的构成要素,因为它们提供了并行操作对各个键或跨节点重新进行数据分组的操作接口。 二:Pair RDD的操作实例 1:创建Pair RDD Pai RDDr的转化操作: 2:针对两个pair RDD 的转化操作...
阅读(7539) 评论(0)

利用采样器实现mapreduce任务输出全排序

采样器是hadoop内自带的一个可以对目标文件部分数据进行提取的工具类,以方便我们对这些采样的数据做一些参考或者处理。hadoop提供了多种采样器供我们使用,以满足不同的需求。另外,采样器不同于普通mapreduce操作。它是直接在客户端机器上运行的。 常见采样器 IntervalSampler 以一定的间隔定期从划分中选择key,对有排序的数据来说更好 RandomSame...
阅读(932) 评论(0)

hadoop中NameNode、DataNode、Secondary、NameNode、ResourceManager、NodeManager 介绍

1:NameNode 2:SecondNameNode 3:DataNode 4:ResourceManage 1、NameNode介绍        Namenode 管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个,分别是Namespace 镜像...
阅读(8928) 评论(0)
242条 共13页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    Thinkgamer微博
    微信公众号【码农故事多】
    个人资料
    • 访问:873334次
    • 积分:10380
    • 等级:
    • 排名:第1802名
    • 原创:218篇
    • 转载:22篇
    • 译文:2篇
    • 评论:294条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论