Spark map 处理表格数据

原创 2016年08月29日 12:51:25
Spark <wbr>map <wbr>处理表格数据

总结:
- Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象;
- 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”:
   操作1:同map函数一样:对每一条输入进行指定的操作,然后为每一条输入返回一个对象
   操作2:最后将所有对象合并为一个对象

使用map对表格数据进行变换常用方法

地区代码 地区名称 所属城市 所属省份
1000 北京市 1000 1000
1027 密云县 1000 1000
1028 延庆县 1000 1000
1100 天津市 1100 1100
1121 宁河县 1100 1100
1123 静海县 1100 1100
1125 蓟 县 1100 1100
1200 河北省 1200 1200
1210 石家庄市 1210 1200
1211 井陉县 1210 1200
1212 鹿泉市 1210 1200
1213 正定县 1210 1200
1214 栾城县 1210 1200

 val textFile = sc.textFile("xrli/citycode") 
    val sp = textFile.map{ line => 
     val fields = line.split("\\t")                      //map中的一个临时变量
     (fields(0),fields(1),fields(2),fields(3))         //每行变成一个数组
    }
      
    val city = sp.filter(x => x._1 == x._3 || x._3=="NA").map(x => (x._2,x._1))
    city.saveAsTextFile("xrli/city") 


map(func):对调用map的RDD数据集中的每个element都使用func,然后返回一个新的RDD,这里是一个
(地区名称,所属城市)

(北京市,1000)
(天津市,1100)
(河北省,1200)
(石家庄市,1210)
(唐山市,1240)






Spark&nbsp;map&nbsp;处理表格数据

map 处理表格数据" TITLE="Spark map 处理表格数据" /> 总结: - Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象; - 而flatM...
  • leexurui
  • leexurui
  • 2016年08月29日 12:51
  • 201

matlab 批量处理统计表格

matlab 批量处理统计表格
  • u012526003
  • u012526003
  • 2016年09月13日 09:49
  • 598

PDF文件表格数据处理

由于要处理PDF文件格式的表格数据,查了好多资料都是写普通PDF文件的操作,最后选定了划定区域获取文本的方式来处理数据 数据格式如下: code如下: //pdf模板处理 private s...
  • woaini1115077272
  • woaini1115077272
  • 2017年02月21日 12:01
  • 845

js 处理表格数据

//表格的添加和删除 function tableObject(){} tableObject.prototype.notifyType=''; tableObj...
  • fengziyun
  • fengziyun
  • 2011年09月12日 16:34
  • 702

Jqgrid入门-操作表格的数据(二)

上一篇中,Jqgrid已经可以从服务端获得数据,并显示在Grid表格中了。下面说一下,如何操作表格及其数据。           jqGrid有很多方法函数,用来操作数据或者操作Grid表...
  • qililong88
  • qililong88
  • 2016年09月19日 10:28
  • 571

C#程序从Excel表格中读取数据并进行处理

今天做了一个Excel表格数据处理的事情,因为数据量表较大(接近7000条)所以处理起来有点麻烦,于是写了一个程序, 先将程序记下以便将来查找。 using System; using Syste...
  • finish_dream
  • finish_dream
  • 2015年11月28日 20:56
  • 3544

表格的JS操作 以及 表格中 JSON 数据的获取

table tr td               {                   text-align: center;               }...
  • vincent_void
  • vincent_void
  • 2012年05月27日 18:30
  • 923

用Matlab对excel数据进行批处理

matlab读取excel中的数据供处理,数据处理完后写入新的excel文件
  • ke_ang
  • ke_ang
  • 2015年05月11日 20:47
  • 4193

pandas处理各种表格数据

一读取文本格式数据 二逐块读取文本文件 三将数据写出到文本格式 四DataFrame和数据库 经常遇到Python读取excel和csv还有其他各种文件的内容。json还有web端的读取还是比较简单...
  • AsuraDong
  • AsuraDong
  • 2017年10月04日 13:13
  • 226

Pandas处理表格

读取excel表 要读取的excel表的如下所示 读取excel表的代码如下:dtrcolumns = ['year-month-day','start-time','end-time','use...
  • u012176591
  • u012176591
  • 2016年01月28日 15:02
  • 1374
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Spark&nbsp;map&nbsp;处理表格数据
举报原因:
原因补充:

(最多只允许输入30个字)