Spark
文章平均质量分 64
大鱼-瓶邪
工作已签,base杭州,专注毕业,后期更新可能会稍微少一点,还是会和大家一起探讨。
华中科技大学在读研究生。主要做核聚变模拟计算,管理着82个节点的集群,做大数据和机器学习,利用10多个老节点搭建各种环境钻研大数据知识,主要是Hadoop生态圈(HDFS+Spark+Sqoop+HIve+Hbase+Pig+Zookeeper)。<br>也用python做科研数据分析,机器学习。<br>熟悉scala开发<br>本科期间跟随导师做了两年的java web开发,熟悉ssh框架,mysql,oracle数据库
展开
-
Spark 计算PI
Spark-Hadoop集群安装见:https://blog.csdn.net/qq_25948717/article/details/80758713(1)计算圆周率pi:在spark安装目录下运行:run-example SparkPi 10 > SparkPi.txt 在文件里可以看到:Pi is roughly 3.13981513981514...原创 2018-07-25 21:24:58 · 2031 阅读 · 0 评论 -
scala-基础之隐式转换、隐式参数、隐式类-08
用IDEA创建maven项目后,在main中新建scala目录,File->Project Structure->Modules设置scala目录为sources,再在Libraries中添加Scala SDK。在scla中新建com.victor.scala包,新建Implict.scalapackage com.victor.scala/** * Compan...原创 2018-10-14 17:06:43 · 163 阅读 · 0 评论 -
hive实战分析网页搜索数据
hive安装教程见:https://blog.csdn.net/qq_25948717/article/details/81054411该文章只讲分析数据:first of all,到搜狗实验室下载用户查询日志:http://www.sogou.com/labs/resource/q.php数据格式:第一列:搜索时间,第二列:用户ID,第三列:用户在输入框的搜索内容, ...原创 2018-10-16 14:17:57 · 1036 阅读 · 0 评论 -
Spark SQL实战查询网页数据分析
Spark以及Hive安装见我的博客:https://blog.csdn.net/qq_25948717/article/details/80758713 https://blog.csdn.net/qq_25948717/article/details/81054411使用Spark ...原创 2018-10-16 16:57:38 · 2069 阅读 · 0 评论 -
Spark SQL介绍和DataFrame概念以及其API的应用示范
Spark SQL介绍:Spark SOL是用于结构化数据、半结构化数据处理的Spark高级模块,可用于从各种结构化数据源,例如JISON (半结构化)文件、CSV文件、ORC文件(ORC文件格式是一种Hive的文件存储格式,可以提高Hive表的读、写以及处理数据的性能)、Hive表、Parquest文件(新型列式存储格式,具有降低查询成本、高效压缩等优点,广泛用于大数据存储、分析领域...原创 2020-08-16 12:41:12 · 6378 阅读 · 0 评论 -
Spark基础之WordCount和DataFrame实战(超级详细)
首先将数据文件上传至hdfs,数据格式产生见:https://blog.csdn.net/qq_25948717/article/details/83113861网页查看:启动交互式界面:启动之前启动hadoop和hive服务启动Spark集群:进入到sbin:执行:./start-all.sh启动日志管理:./start-history-server.sh ...原创 2018-10-17 17:37:57 · 1797 阅读 · 0 评论 -
Spark SQL:加载和保存数据实战
Spark SQL中可以对各种数据源进行读取和处理:Parquet、Hive、Json、Hbase。相应也有数据的保存和加载的方法。加载:首先将数据文件上传到HDFS中:hdfs dfs -put localfile hdfs_filepeople.json是spark的examples/src/main/resource自带的文件:启动spark-shell,记得启动之前要启...原创 2018-10-22 21:53:32 · 370 阅读 · 0 评论 -
Spark-IDEA创建Spark项目(scala)
安装JDK、Scala、IDEA见我的其他博客有详细的介绍。启动idea:进入到某个文件夹:File-NewProject:Scala-IDEAProject Name:File-Project Structure-Modules:新建文件夹,设为source添加Library:scala SDK: Java Library:选择$SPA...原创 2018-10-20 22:55:29 · 1896 阅读 · 0 评论 -
基IDEA开发Spark的Maven项目--Scala语言
Maven管理项目在JavaEE普遍使用,开发Spark项目也不例外,而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目,本文采用的工具是IntelliJ IDEA 2018,IDEA工具越来越被大家认可,开发java, python ,scala 支持都非常好下载链接 : https://www.jetbrains.com/idea/down...原创 2018-10-25 22:04:20 · 613 阅读 · 0 评论 -
Spark1.6 SQL下的UDF--SplitCount(切分字符串并计算数组长度)
UDF(用户自定义函数):将自己写的函数加入到用户 会话,和内置函数一样使用注意本案例适合spark1.X版的,spark2.x的版本不适用。=====================================================================================package com.victor.spark.sqlUDFim...原创 2018-10-26 18:45:14 · 2950 阅读 · 0 评论 -
Spark SQL操作Hive实战
在目前企业级 Spark大数据开发中,大多数情况下都是采用Hive来作为数据仓库的。Spark提供了对Hive的支持, Spark通过HiveContext可以直接操作Hive中的数据。基于HiveContext,、我们可以使用sql/hql两种方式来编写SQL语句对Hive进行操作,包括:创建表、删除表、往表中导入数据、以及对表中的数据进行CRUD(増、删、改、査)操作。下面就开始动...原创 2018-10-24 22:30:10 · 2683 阅读 · 1 评论 -
Spark-RDD-02基本操作详解
Spark中RDD是一个不可变的分布式对象集合,每个RDD都被分为多个分区,这些分区被分发到集群的不同的节点中进行计算。SparkContext是Spark的编程主入口点,可以被用于在集群中创建RDDs,在spark-shell中被系统默认创建为sc。两种创建RDD的方式:(1)调用SparkContext的parallelize()方法将数据并行化成RDD ...原创 2018-11-03 15:48:18 · 732 阅读 · 0 评论 -
Spark-RDD-04 checkpoint容错机制
我们了解到合理地将RDD持久化/缓存,不仅直接避免了RDD的重复计算导致的资原浪费和占用,还提升了RDD的容错性,而且间接提升了分析任务的完成效率,那么为什么又会需要基于checkpoint的容错机制,在什么情况下需要设置checkpoint呢?对RDD进行ceckpoin操作,会将RDD直接存储到磁盘上,而不是内存,从而实现真正的数据持久化。checkpoint实际上对RDD lin...原创 2018-11-03 16:48:57 · 540 阅读 · 0 评论 -
Spark SQL中RDDs转化为DataFrame(详细全面)
除了调用SparkSesion.read().json/csv/orc/parqutjdbc 方法从各种外部结构化数据源创建DataFrame对象外,Spark SQL还支持将已有的RDD转化为DataFrame对象,但是需要注意的是,并不是由任意类型对象组成的RDD均可转化为DataFrame 对象,只有当组成RDD[T]的每一个T对象内部具有公有且鲜明的字段结构时,才能隐式或显式地总结...原创 2018-11-04 12:46:32 · 6675 阅读 · 1 评论 -
Spark SQL操作多种数据源
Spark SQL的默认数据源格式为parquet格式。数据源为Parquet文件时,SparkSQL 可以方便地进行读取,甚至可以直接在Parquet 文件上执行查询操作。修改配置项spark.sqlsources.default,可以修改默认数据源格式。以下示例通过通用的load/save方法对parquet文件进行读取、存储。Parquet先上传文件:正如前面所讲...原创 2018-11-04 17:01:09 · 3125 阅读 · 0 评论 -
scala-基础之集合和高阶函数-07
做spark开发 会使用很多spark的高阶函数 所以就在linux服务上使用scala高阶函数,集群又82个节点,我取node40-37为搭建的hadoop集群,node40是主节点,node39-37是datanode。ssh node40切换到node40后;输入scala,进入命令界面操作。安装教程网上很多,特别简单。申明一个集合:注意List不能是list,里面可以不是同类型...原创 2018-10-14 16:15:55 · 235 阅读 · 0 评论 -
scala-基础之apply用法-06
创建:UsageOfApply.scalapackage org.victor.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0 * Author: Victor * Contact: 16509...原创 2018-10-12 22:15:34 · 215 阅读 · 0 评论 -
centos安装hadoop-spark集群
hadoop集群安装见:https://blog.csdn.net/qq_25948717/article/details/80299499先去下载spark:https://mirrors.cnnic.cn/apache/,和scala:https://www.scala-lang.org/download/,因为 spark使用scala开发,要先安装scala。解压到/home/...原创 2018-06-21 13:03:40 · 1982 阅读 · 0 评论 -
Spark下的WordCount案列演示
安装教程见我其他博客https://blog.csdn.net/qq_25948717/article/details/80758713,在终端输入pyspark进入spark环境:test.txt进入:读取文本文件:>>> textFile = sc.textFile("test.txt")使用flatMap空格分隔单词,并读取每个单词注...原创 2018-08-22 12:27:41 · 572 阅读 · 0 评论 -
Linux下Eclipse配置scala开发Spark-WordCount项目
Eclipse和Scala安装见:https://blog.csdn.net/qq_25948717/article/details/80404158‘ https://blog.csdn.net/qq_25948717/article/details/80758713去官网下载插件:http://scala-id...原创 2018-08-22 13:31:13 · 1741 阅读 · 0 评论 -
Spark-RDD-03基本转换和动作运算实例
创建intRDD并转化为List输入创建StringRDD通过给map函数传入匿名函数操作RDDfilter数字运算:过滤数值运算字符运算distinct运算:除去重复元素randdomSplit运算:将整个集合元素以随机数的方式按照比列分为多个RDDgroupBy运算:可以按照传入的匿名函数规则将数据分为多个List多个RDD转...原创 2018-08-21 19:40:02 · 950 阅读 · 0 评论 -
Spark RDD Key-Value基本转换和动作运算实例
创建Key-Value RDD kvRDD1 = sc.parallelize([(3,6),(6,9),(3,4),(5,6),(1,2)])转换:取key和value>>> kvRDD1.collect()[(3, 6), (6, 9), (3, 4), (5, 6), (1, 2)]>>> kvRDD1.keys().collect()[...原创 2018-08-21 20:31:38 · 3648 阅读 · 0 评论 -
Spark Broadcast广播变量
Broadcast广播变量使用规则如下:(1)可以使用SparkContext.broadcast([初始值])创建(2)使用.valuse来读取广播变量的值(3)Broadcast广播变量被创建后不能修改例子:创建kvFruit:>>> kvFruit = sc.parallelize([(1,"apple"),(2,"orange"),(3,"bana...原创 2018-08-21 20:59:19 · 866 阅读 · 0 评论 -
Spark accumulator累加器
accumulator累加器使用规则:(1)accumulator累加器可以使用SparkContext.accumulator([初始值])来创建(2)使用.add()累加(3)在task中,例如foreach循环中,不能读取累加器的值(4)只有驱动程序,也就是循环外,才可以使用.value读取累加器的值例子:累加器求和、计数>>> intRDD = s...原创 2018-08-21 21:41:19 · 282 阅读 · 0 评论 -
Spark RDD persistence持久化
Spark RDD持久化机制可以用于将需要重复运算的RDD存储在内存中,以便大幅提升运算效率Spark RDD持久化使用方法如下: RDD.persist ------------存储等级 RDD.unpersist ------------取消持久化存储等级说明:MEMORY_ONLY :spark会将RDD对象以Java对象反串行化(序列化)在JVM的堆...原创 2018-08-21 22:06:06 · 312 阅读 · 0 评论 -
Spark-RDD-01基础知识详细全面认识
开篇背景介绍:在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗,而对于两个的MapReduce作业之间数据共享只有一个办法,就是将其写到一个稳定的外部存储系统,如分布式文件系统。这会引入数据备份、磁盘I/O以及序列化,这些都会引起大量的开销,从而占据大部分的应用执行时间。所以我们发现如果...转载 2018-10-12 11:06:22 · 242 阅读 · 0 评论 -
scala-基础之方法-01
该项目全部都在linux下开发,安装好idea后,启动,进入到界面后,file->Project Structure->global libraries里面安装scala-sdk。File-New新建Scala项目,建合适的包名,右击包名新建scala.class,进入开发。由于main方法要位于object对象中,所以我们创建一个object 名称为HelloWorld 并增...原创 2018-10-12 18:52:41 · 227 阅读 · 0 评论 -
scala-基础之表达式-02
创建一个scala类ExpressionDemo.scala 并增加object ExpressionDemo和main方法package org.yexin.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0...原创 2018-10-12 19:36:21 · 184 阅读 · 0 评论 -
scala-基础之class-03
创建scala类名为OOPInScala.scala ,并增加object OOPInScala package org.victor.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0 * Aut...原创 2018-10-12 20:12:02 · 178 阅读 · 0 评论 -
scala-基础之类继承-04
创建ExtendsScala.scala类 package org.victor.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0 * Author: Victor * Contact: 16...原创 2018-10-12 21:04:13 · 229 阅读 · 0 评论 -
scala-基础之抽象类-05
创建AbstractScala.scalapackage org.victor.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0 * Author: Victor * Contact: 16509...原创 2018-10-12 21:35:27 · 145 阅读 · 0 评论 -
Spark SQL一步步分析Wifi探针商业大数据案例
该项目主要实现的主要功能:一是通过探针设备采集可监测范围内的手机MAC地址、与探针距离、时间、地理位置等信息:二是探针采集的数据可以定时发送到服务端保存:三是利用大数据技术对数据进行人流量等指标的分析。最终以合理的方式展示数据处理结果。数据收集数据收集由服务器和探针设备共同完成,探针采集数据并发送到服务器,服务器接收探针设备的数据,处理成定格式保存至分布式文件系统(HDFS...原创 2018-11-11 15:46:11 · 2587 阅读 · 3 评论