Thinkgamer博客

微信搜索“数据与算法联盟”,拉你进数据算法大佬群

Hadoop 容错之1.X的单点故障 到 2.X的HA和HDFS Federation

hadoop十年的发展从1.x到2.x的演变,可谓发生了巨大的变化,不管是架构还是资源调度都是经历彻彻底底的改变,本篇博客着重介绍hadoop从1.x到2.x的单点故障的解决过程,和对应的解决办法

2016-08-31 19:13:50

阅读数:2274

评论数:0

三台PC服务器部署Hadoop HA(Hadoop 高可用性架构)

之前是在自己电脑上部署的hadoop集群,但并未涉及到HA配置,这次将集群迁移到PC服务器,但是问题来了,只有三台,但是我还想配置HA,PC服务器是CentOS6.5,原来想着在上边部署VM,从而部署HA集群,但经测试,未果,遂弃之,就想到了在三台机器上部署HA集群。

2016-08-30 14:42:03

阅读数:6522

评论数:2

使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计

本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客 以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难,但幸好最终都解决了这些问题,而得到了正确的结果,这里我们不解释具体的spark语法之类的,着重于解...

2016-08-23 17:40:50

阅读数:8329

评论数:4

基于Spark和Hive进行的豆瓣电影数据分析

自己做的一个关于豆瓣电影数据的一些分析,主要采用的是Spark和Hive,Python作为基础实现,也设计了中文分词统计,hadoop等内容

2016-08-23 17:38:23

阅读数:8073

评论数:13

关于Hive中的复杂数据类型Array,Map,Structs的一些使用案例

写在前边的话:         同样是在做豆瓣电影数据分析的小课题的时候遇到的一个问题:hive表中的电影类型存储格式为array,那么我如何针对每一个类型做统计呢?         本来是想在基于豆瓣电影数据进行相关的数据分析项目      中进行相关解释说明的,仔细想了下,刚好拿出来,对hi...

2016-08-10 13:39:54

阅读数:20397

评论数:0

IDEA构建Spark编程环境和用Scala实现PageRank算法

Idea 搭建Spark开发环境,并测试运行SparkPI示例,Shell脚本运行PageRank算法,打包在Spark集群上运行

2016-08-09 14:42:03

阅读数:2295

评论数:0

09.Apache 2.4 基于端口配置多个Diango项目

写在前边的话:        基于多端口配置普通的web项目是非常简单的,大家上网搜索就能得到很多答案,而且不会出错,然而在配置Django的多端口时,却出现了各种bug,苦苦的折腾了一晚上        环境 说明:              服务器 Windows Server 2008   ...

2016-08-06 12:16:56

阅读数:2741

评论数:1

带你走进Spark编程之Scala入门

1:什么是Scala? Scala是一门多范式的编程语言,类似于Java,并集成了面向对象编程和函数式编程的各种特性,具体可参考知乎上的一个帖子 2:本篇博客包含哪些内容? Scala中变量的声明与函数定义 Scala中的控制结构 Scala中的数据类型 ...

2016-08-04 14:12:36

阅读数:4922

评论数:0

Hive的内置服务和hiveserver/hiveserver2的比较

两者都允许远程客户端使用多种编程语言,通过HiveServer或者HiveServer2,客户端可以在不启动CLI的情况下对Hive中的数据进行操作,连这个和都允许远程客户端使用多种编程语言如java,python等向hive提交请求,取回结果(从hive0.15起就不再支持hiveserver了...

2016-08-01 19:01:49

阅读数:22929

评论数:12

Spark集群启动python shell错误: Could not resolve hostname localhost: Temporary failure

Spark启动bin/pyspark报错:socket.gaierror: [Errno -3] Temporary failure in name resolution的解决办法

2016-08-01 10:12:56

阅读数:4667

评论数:1

提示
确定要删除当前文章?
取消 删除