Spark RDD编程(二)

RDD的分区函数 | RDD的基本转换操作 | repartition 和 coalesce | randomSplit和glom | mapPartitions和mapPartitionsWithIndex | zip和zipPartitions | zipWithIndex和zinWithUniqueId | 控制操作 | 行动操作...
阅读(2766) 评论(2)

使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计

本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客 以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难,但幸好最终都解决了这些问题,而得到了正确的结果,这里我们不解释具体的spark语法之类的,着重于解决中文分词统计这个问题 同步github地址:点击查看...
阅读(4616) 评论(4)

IDEA构建Spark编程环境和用Scala实现PageRank算法

Idea 搭建Spark开发环境,并测试运行SparkPI示例,Shell脚本运行PageRank算法,打包在Spark集群上运行...
阅读(1570) 评论(0)

带你走进Spark编程之Scala入门

1:什么是Scala? Scala是一门多范式的编程语言,类似于Java,并集成了面向对象编程和函数式编程的各种特性,具体可参考知乎上的一个帖子 2:本篇博客包含哪些内容? Scala中变量的声明与函数定义 Scala中的控制结构 Scala中的数据类型 Scala中的类详解...
阅读(2830) 评论(0)

Spark集群启动python shell错误: Could not resolve hostname localhost: Temporary failure

Spark启动bin/pyspark报错:socket.gaierror: [Errno -3] Temporary failure in name resolution的解决办法...
阅读(2571) 评论(0)

Spark的运行架构分析(二)之运行模式详解

在上一篇博客  spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式...
阅读(4345) 评论(0)

Spark的运行架构分析(一)之架构概述

1:Spark的运行模式 2:Spark中的一些名词解释 3:spark的运行基本流程 一:Spark的运行模式         Spark的运行模式多种多样,灵活多变,部署在单机上时,既可以用本地模式运行,也可以用伪分布模式运行,而当以分布式集群的方式部署时,也有众多的运行模式可供选择,这取决于集群的实际情况,底层的资源调度即可以依赖外部资源调度框架,也可以使用Spark内建的S...
阅读(6728) 评论(0)

Spark 的键值对(pair RDD)操作,Scala实现

一:什么是Pair RDD?          Spark为包含键值对对类型的RDD提供了一些专有操作,这些操作就被称为Pair RDD,Pair RDD是很多程序的构成要素,因为它们提供了并行操作对各个键或跨节点重新进行数据分组的操作接口。 二:Pair RDD的操作实例 1:创建Pair RDD Pai RDDr的转化操作: 2:针对两个pair RDD 的转化操作...
阅读(6081) 评论(0)

Spark RDD编程(Python和Scala版本)

Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。        Spark的RDD操作分 和为转化操作(transformation)和行动操作(action),两者的区别在于:        转化操作返回一个新的RDD对象        行动操作则会对RDD产生一个计算结果,并把结果返回到驱动器...
阅读(4618) 评论(2)

Spark 的 Shell操作,核心概念,构建独立应用

1:Spark中的Python和Scala的shell 2:Spark核心概念简介 3:独立应用 4:Spark数据集 一:Spark中的Python 和Scala  的shell        1:shell设置显示日志        进入Spark的安装目录,启动spark的集群,输入bin/pyspark,但此时会伴有大量的日志信息,在这里想要缩减启动信息...
阅读(1801) 评论(0)

Spark的伪分布安装和wordcount测试

一:环境说明              Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)              Hadoop:2.6              Scala:2.11.8              Java:1.7.0              Spark:1.6.1 2:hadoop伪分布安装...
阅读(2305) 评论(0)
    Thinkgamer微博
    个人微信,一起交流!

     扫一扫,关注我




    个人资料
    • 访问:758175次
    • 积分:9476
    • 等级:
    • 排名:第1976名
    • 原创:212篇
    • 转载:22篇
    • 译文:2篇
    • 评论:273条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论