初探Spark-使用大数据分析2000W行数据

最新推荐文章于 2024-03-06 11:18:16 发布

antgan

最新推荐文章于 2024-03-06 11:18:16 发布

阅读量1.7k

点赞数 1

分类专栏：大数据分析文章标签：大数据 spark scala 大数据分析分析

本文链接：https://blog.csdn.net/antgan/article/details/52191669

版权

本文记录了一位初学者使用Spark和Scala进行大数据分析的实践过程，包括模拟2000万条人口数据，分析男女比例和星座分布。通过实例，作者强调了运行效率在大数据处理中的重要性，分享了从json数据转换为对象取值导致效率低下并引以为戒的经验。

摘要由CSDN通过智能技术生成

初学spark和scala，做些小分析练习，学习资料可以看看这里

如何搭建scala环境和spark环境我就不说了，网上一堆堆的。

开发环境
scala version：2.11.2 
spark version：spark-2.0.0-bin-hadoop2.4
Eclipse：4.4.2 Juno Service Release 2

本次实例是单机运行的，步骤如下：
1. 模拟2000W人口数据
2. 编写程序分析男女比例分布
3. 编写程序分析人口星座分布

一、模拟数据

2000W行数据是自己模拟出来的，模拟随机生成人口资料。

package com.soecode.SparkDemo

import java.io.PrintWriter

/**
 * 模拟一个城市人口
 */
object CreateTestFile {
   
    def main(args: Array[String]) {
        val start = System.currentTimeMillis();
        val out = new PrintWriter("d://renkou.txt")

        for(i <- 1 to 20000000){
            out.println(i+","+getName+","+getBirth+","+getSex)
        }
        out.close()
        val end = System.currentTimeMillis();
        print("任务结束，耗时："+(end-start)+"ms")
    }

    //随机产生名
    de

最低0.47元/天解锁文章

antgan

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
初探Spark-使用大数据分析2000W行数据

初学spark和scala，做些小分析练习，学习资料可以看看这里如何搭建scala环境和spark环境我就不说了，网上一堆堆的。开发环境scala version：2.11.2 spark version：spark-2.0.0-bin-hadoop2.4Eclipse：4.4.2 Juno Service Release 2本次实例是单机运行的，步骤如下： 1. 模拟2000W人口数据
复制链接

扫一扫