初探Spark-使用大数据分析2000W行数据

本文记录了一位初学者使用Spark和Scala进行大数据分析的实践过程,包括模拟2000万条人口数据,分析男女比例和星座分布。通过实例,作者强调了运行效率在大数据处理中的重要性,分享了从json数据转换为对象取值导致效率低下并引以为戒的经验。
摘要由CSDN通过智能技术生成

初学spark和scala,做些小分析练习,学习资料可以看看这里

如何搭建scala环境和spark环境我就不说了,网上一堆堆的。


开发环境
scala version2.11.2 
spark version:spark-2.0.0-bin-hadoop2.4
Eclipse:4.4.2 Juno Service Release 2

本次实例是单机运行的,步骤如下:
1. 模拟2000W人口数据
2. 编写程序分析男女比例分布
3. 编写程序分析人口星座分布


一、 模拟数据

2000W行数据是自己模拟出来的,模拟随机生成人口资料。

package com.soecode.SparkDemo

import java.io.PrintWriter

/**
 * 模拟一个城市人口
 */
object CreateTestFile {
   
    def main(args: Array[String]) {
        val start = System.currentTimeMillis();
        val out = new PrintWriter("d://renkou.txt")

        for(i <- 1 to 20000000){
            out.println(i+","+getName+","+getBirth+","+getSex)
        }
        out.close()
        val end = System.currentTimeMillis();
        print("任务结束,耗时:"+(end-start)+"ms")
    }

    //随机产生名
    de
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值