Hadoop 容错之1.X的单点故障 到 2.X的HA和HDFS Federation

hadoop十年的发展从1.x到2.x的演变,可谓发生了巨大的变化,不管是架构还是资源调度都是经历彻彻底底的改变,本篇博客着重介绍hadoop从1.x到2.x的单点故障的解决过程,和对应的解决办法...
阅读(1359) 评论(0)

三台PC服务器部署Hadoop HA(Hadoop 高可用性架构)

之前是在自己电脑上部署的hadoop集群,但并未涉及到HA配置,这次将集群迁移到PC服务器,但是问题来了,只有三台,但是我还想配置HA,PC服务器是CentOS6.5,原来想着在上边部署VM,从而部署HA集群,但经测试,未果,遂弃之,就想到了在三台机器上部署HA集群。...
阅读(3285) 评论(0)

使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计

本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客 以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难,但幸好最终都解决了这些问题,而得到了正确的结果,这里我们不解释具体的spark语法之类的,着重于解决中文分词统计这个问题 同步github地址:点击查看...
阅读(3741) 评论(4)

基于Spark和Hive进行的豆瓣电影数据分析

自己做的一个关于豆瓣电影数据的一些分析,主要采用的是Spark和Hive,Python作为基础实现,也设计了中文分词统计,hadoop等内容...
阅读(4538) 评论(9)

关于Hive中的复杂数据类型Array,Map,Structs的一些使用案例

写在前边的话:         同样是在做豆瓣电影数据分析的小课题的时候遇到的一个问题:hive表中的电影类型存储格式为array,那么我如何针对每一个类型做统计呢?         本来是想在基于豆瓣电影数据进行相关的数据分析项目      中进行相关解释说明的,仔细想了下,刚好拿出来,对hive的三个复杂数据类型做一个总结性的学习...
阅读(4809) 评论(0)

IDEA构建Spark编程环境和用Scala实现PageRank算法

Idea 搭建Spark开发环境,并测试运行SparkPI示例,Shell脚本运行PageRank算法,打包在Spark集群上运行...
阅读(1300) 评论(0)

09.Apache 2.4 基于端口配置多个Diango项目

写在前边的话:        基于多端口配置普通的web项目是非常简单的,大家上网搜索就能得到很多答案,而且不会出错,然而在配置Django的多端口时,却出现了各种bug,苦苦的折腾了一晚上        环境 说明:              服务器 Windows Server 2008              Apache 2.4.4              Python 2....
阅读(1222) 评论(0)

带你走进Spark编程之Scala入门

1:什么是Scala? Scala是一门多范式的编程语言,类似于Java,并集成了面向对象编程和函数式编程的各种特性,具体可参考知乎上的一个帖子 2:本篇博客包含哪些内容? Scala中变量的声明与函数定义 Scala中的控制结构 Scala中的数据类型 Scala中的类详解...
阅读(2228) 评论(0)

Hive的内置服务和hiveserver/hiveserver2的比较

两者都允许远程客户端使用多种编程语言,通过HiveServer或者HiveServer2,客户端可以在不启动CLI的情况下对Hive中的数据进行操作,连这个和都允许远程客户端使用多种编程语言如java,python等向hive提交请求,取回结果(从hive0.15起就不再支持hiveserver了),但是在这里我们还是要说一下hiveserver HiveServer或者HiveServer2都是基于Thrift的,但HiveSever有时被称为Thrift server,而HiveServe...
阅读(8683) 评论(8)

Spark集群启动python shell错误: Could not resolve hostname localhost: Temporary failure

Spark启动bin/pyspark报错:socket.gaierror: [Errno -3] Temporary failure in name resolution的解决办法...
阅读(2008) 评论(0)
    Thinkgamer微博
    个人微信,一起交流!

     扫一扫,关注我




    个人资料
    • 访问:629823次
    • 积分:8313
    • 等级:
    • 排名:第2280名
    • 原创:208篇
    • 转载:24篇
    • 译文:2篇
    • 评论:211条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论