Spark map 处理表格数据

原创 2016年08月29日 12:51:25
Spark <wbr>map <wbr>处理表格数据

总结:
- Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象;
- 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”:
   操作1:同map函数一样:对每一条输入进行指定的操作,然后为每一条输入返回一个对象
   操作2:最后将所有对象合并为一个对象

使用map对表格数据进行变换常用方法

地区代码 地区名称 所属城市 所属省份
1000 北京市 1000 1000
1027 密云县 1000 1000
1028 延庆县 1000 1000
1100 天津市 1100 1100
1121 宁河县 1100 1100
1123 静海县 1100 1100
1125 蓟 县 1100 1100
1200 河北省 1200 1200
1210 石家庄市 1210 1200
1211 井陉县 1210 1200
1212 鹿泉市 1210 1200
1213 正定县 1210 1200
1214 栾城县 1210 1200

 val textFile = sc.textFile("xrli/citycode") 
    val sp = textFile.map{ line => 
      val fields = line.split("\\t")                      //map中的一个临时变量
     (fields(0),fields(1),fields(2),fields(3))         //每行变成一个数组
    }
      
    val city = sp.filter(x => x._1 == x._3 || x._3=="NA").map(x => (x._2,x._1))
    city.saveAsTextFile("xrli/city") 


map(func):对调用map的RDD数据集中的每个element都使用func,然后返回一个新的RDD,这里是一个
(地区名称,所属城市)

(北京市,1000)
(天津市,1100)
(河北省,1200)
(石家庄市,1210)
(唐山市,1240)






相关文章推荐

JAVA&nbsp;交叉的画出n行*m列的表格

package Rong; import java.awt.*; import javax.swing.*; import java.awt.event.*; public class Table...

ALV&nbsp;导出电子表格的文件格式…

在 ALV 显示中,选择菜单“列表-导出-电子表格”后,会出现下面这样的选择窗口: 导出电子表格的文件格式固定的删除办法" TITLE="ALV 导出电子表格的文件格式固定的删除办法" /> 如果选...

cocos2d&nbsp;libjson数据解析

使用libJson解析思路:1.获取请求数据 std::vector *buffer = response->getResponseData(); //返回回来的数据 std::string ...

MySQL删除数据Delete&nbsp;语句、Trunca…

恶人自有恶人磨,如果数据库里面的数据有问题了,或者是有人捣乱,再或者就是您老人家看这条数据不爽,还有就是您想毁灭证据(其实总是会留下痕迹的)的时候,你就需要了解MySQL的Delete语句了。MySQ...

Deep&nbsp;learning:三十(关于数据预处…

前言:   本文主要是介绍下在一个实际的机器学习系统中,该怎样对数据进行预处理。个人感觉数据预处理部分在整个系统设计中的工作量占了至少1/3。首先数据的采集就非常的费时费力,因为这些数据需要考虑各种...

Oracle&nbsp;不同版本的数据间的导入导…

Oracle的imp/exp组件是我们常用的工具,它的一个操作原则就是向下兼容。下面是据此总结的几个使用规则和相关测试: 规则1:低版本的exp/imp可以连接到高版本(或同版本)的数据库服务器,但...

VTK教程之六&nbsp;构建数据集的例子程序

  本教程主要说

从比特币到大数据&nbsp;区块链干扰…

比特币2009年第一次出现是作为开源软件,将数字货币这一概念介绍给各地的消费者。数字货币超越了国界和政府机构,受科技制衡本身的复杂系统所控制。 尽管比特币本身试图从消费者和金融机构获得认可,比特币交...

Mysql&nbsp;数据同步

利用MySQL提供数据库复制功能可以实现两个数据库同步,主从模式,互相备份模式的功能. 数据库同步复制功能的设置都在mysql的设置文件中体现。 mysql的配置文件(一般是my.cnf) Aip:1...
  • gkyh899
  • gkyh899
  • 2013年10月23日 23:40
  • 265

Matlab&nbsp;数据的输入和输出

Matlab 数据的输入和输出 标签: matlab  分类: 程序开发 2009-06-10 12:56 在编写一个程序时,经常需要从外部读入数据,或者将程序运行的结果保存为文件。MATLA...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Spark&nbsp;map&nbsp;处理表格数据
举报原因:
原因补充:

(最多只允许输入30个字)