![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
不会JAVA的运营不是好数分
这个作者很懒,什么都没留下…
展开
-
01.spark基本知识
开始的话学习spark有一段时间了,想整理下,spark的东西,做一个笔记。提醒自己1.spark初始Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但...原创 2019-07-31 08:45:45 · 117 阅读 · 0 评论 -
02.spark-core入门(算子和Spark任务执行流程)
一、Spark Core概念讲解Spark Core:内核,也是Spark中最重要的部分。相当于MapreduceSparkCore 和 Mapreduce都是进行离线数据分析SparkCore的核心:RDD(弹性分布式数据集),由分区组成二、RDD的五大特性 1、RDD是由一系列的partition组成的。 ...原创 2019-07-31 09:29:25 · 472 阅读 · 0 评论 -
传感器数据,定时清洗,导入hive数据仓库
1.需求背景目前有大量的传感器数据,需要清洗上传到数仓中,然后供业务人员导出或者做一些sql的查询。2.解决思路用python放到服务器做数据清洗,导出清洗的csv文件然后用hive将数据导入数仓中写shell脚本定时执行3. 具体步骤在hive中创建分区表(按天)create table ele_car_sensor_data(Time_string string,T...原创 2019-07-31 21:00:00 · 744 阅读 · 1 评论 -
电动车传感器数据处理,入库手动版
基于hueHue是cdh专门的一套web管理器,它包括3个部分hue ui,hue server,huedb。hue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。2.在服务器中处理数据,并且上传之前的环境安装python3.x以上安装豆瓣的包pip3 instal...原创 2019-07-31 21:03:08 · 275 阅读 · 0 评论