Scala
文章平均质量分 59
大鱼-瓶邪
工作已签,base杭州,专注毕业,后期更新可能会稍微少一点,还是会和大家一起探讨。
华中科技大学在读研究生。主要做核聚变模拟计算,管理着82个节点的集群,做大数据和机器学习,利用10多个老节点搭建各种环境钻研大数据知识,主要是Hadoop生态圈(HDFS+Spark+Sqoop+HIve+Hbase+Pig+Zookeeper)。<br>也用python做科研数据分析,机器学习。<br>熟悉scala开发<br>本科期间跟随导师做了两年的java web开发,熟悉ssh框架,mysql,oracle数据库
展开
-
scala-基础之方法-01
该项目全部都在linux下开发,安装好idea后,启动,进入到界面后,file->Project Structure->global libraries里面安装scala-sdk。File-New新建Scala项目,建合适的包名,右击包名新建scala.class,进入开发。由于main方法要位于object对象中,所以我们创建一个object 名称为HelloWorld 并增...原创 2018-10-12 18:52:41 · 227 阅读 · 0 评论 -
Spark-RDD-02基本操作详解
Spark中RDD是一个不可变的分布式对象集合,每个RDD都被分为多个分区,这些分区被分发到集群的不同的节点中进行计算。SparkContext是Spark的编程主入口点,可以被用于在集群中创建RDDs,在spark-shell中被系统默认创建为sc。两种创建RDD的方式:(1)调用SparkContext的parallelize()方法将数据并行化成RDD ...原创 2018-11-03 15:48:18 · 732 阅读 · 0 评论 -
Spark SQL操作Hive实战
在目前企业级 Spark大数据开发中,大多数情况下都是采用Hive来作为数据仓库的。Spark提供了对Hive的支持, Spark通过HiveContext可以直接操作Hive中的数据。基于HiveContext,、我们可以使用sql/hql两种方式来编写SQL语句对Hive进行操作,包括:创建表、删除表、往表中导入数据、以及对表中的数据进行CRUD(増、删、改、査)操作。下面就开始动...原创 2018-10-24 22:30:10 · 2684 阅读 · 1 评论 -
Spark1.6 SQL下的UDF--SplitCount(切分字符串并计算数组长度)
UDF(用户自定义函数):将自己写的函数加入到用户 会话,和内置函数一样使用注意本案例适合spark1.X版的,spark2.x的版本不适用。=====================================================================================package com.victor.spark.sqlUDFim...原创 2018-10-26 18:45:14 · 2950 阅读 · 0 评论 -
基IDEA开发Spark的Maven项目--Scala语言
Maven管理项目在JavaEE普遍使用,开发Spark项目也不例外,而Scala语言开发Spark项目的首选。因此需要构建Maven-Scala项目来开发Spark项目,本文采用的工具是IntelliJ IDEA 2018,IDEA工具越来越被大家认可,开发java, python ,scala 支持都非常好下载链接 : https://www.jetbrains.com/idea/down...原创 2018-10-25 22:04:20 · 613 阅读 · 0 评论 -
Spark-IDEA创建Spark项目(scala)
安装JDK、Scala、IDEA见我的其他博客有详细的介绍。启动idea:进入到某个文件夹:File-NewProject:Scala-IDEAProject Name:File-Project Structure-Modules:新建文件夹,设为source添加Library:scala SDK: Java Library:选择$SPA...原创 2018-10-20 22:55:29 · 1897 阅读 · 0 评论 -
Spark SQL:加载和保存数据实战
Spark SQL中可以对各种数据源进行读取和处理:Parquet、Hive、Json、Hbase。相应也有数据的保存和加载的方法。加载:首先将数据文件上传到HDFS中:hdfs dfs -put localfile hdfs_filepeople.json是spark的examples/src/main/resource自带的文件:启动spark-shell,记得启动之前要启...原创 2018-10-22 21:53:32 · 370 阅读 · 0 评论 -
Spark基础之WordCount和DataFrame实战(超级详细)
首先将数据文件上传至hdfs,数据格式产生见:https://blog.csdn.net/qq_25948717/article/details/83113861网页查看:启动交互式界面:启动之前启动hadoop和hive服务启动Spark集群:进入到sbin:执行:./start-all.sh启动日志管理:./start-history-server.sh ...原创 2018-10-17 17:37:57 · 1798 阅读 · 0 评论 -
Spark SQL介绍和DataFrame概念以及其API的应用示范
Spark SQL介绍:Spark SOL是用于结构化数据、半结构化数据处理的Spark高级模块,可用于从各种结构化数据源,例如JISON (半结构化)文件、CSV文件、ORC文件(ORC文件格式是一种Hive的文件存储格式,可以提高Hive表的读、写以及处理数据的性能)、Hive表、Parquest文件(新型列式存储格式,具有降低查询成本、高效压缩等优点,广泛用于大数据存储、分析领域...原创 2020-08-16 12:41:12 · 6381 阅读 · 0 评论 -
scala-基础之隐式转换、隐式参数、隐式类-08
用IDEA创建maven项目后,在main中新建scala目录,File->Project Structure->Modules设置scala目录为sources,再在Libraries中添加Scala SDK。在scla中新建com.victor.scala包,新建Implict.scalapackage com.victor.scala/** * Compan...原创 2018-10-14 17:06:43 · 164 阅读 · 0 评论 -
scala-基础之集合和高阶函数-07
做spark开发 会使用很多spark的高阶函数 所以就在linux服务上使用scala高阶函数,集群又82个节点,我取node40-37为搭建的hadoop集群,node40是主节点,node39-37是datanode。ssh node40切换到node40后;输入scala,进入命令界面操作。安装教程网上很多,特别简单。申明一个集合:注意List不能是list,里面可以不是同类型...原创 2018-10-14 16:15:55 · 235 阅读 · 0 评论 -
scala-基础之apply用法-06
创建:UsageOfApply.scalapackage org.victor.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0 * Author: Victor * Contact: 16509...原创 2018-10-12 22:15:34 · 215 阅读 · 0 评论 -
scala-基础之抽象类-05
创建AbstractScala.scalapackage org.victor.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0 * Author: Victor * Contact: 16509...原创 2018-10-12 21:35:27 · 145 阅读 · 0 评论 -
scala-基础之类继承-04
创建ExtendsScala.scala类 package org.victor.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0 * Author: Victor * Contact: 16...原创 2018-10-12 21:04:13 · 229 阅读 · 0 评论 -
scala-基础之class-03
创建scala类名为OOPInScala.scala ,并增加object OOPInScala package org.victor.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0 * Aut...原创 2018-10-12 20:12:02 · 178 阅读 · 0 评论 -
scala-基础之表达式-02
创建一个scala类ExpressionDemo.scala 并增加object ExpressionDemo和main方法package org.yexin.scala.base/** * Company: Huazhong University of science and technology * 华中科技大学电气学院聚变与等离子体研究所 * Version: V1.0...原创 2018-10-12 19:36:21 · 184 阅读 · 0 评论 -
Spark-RDD-03基本转换和动作运算实例
创建intRDD并转化为List输入创建StringRDD通过给map函数传入匿名函数操作RDDfilter数字运算:过滤数值运算字符运算distinct运算:除去重复元素randdomSplit运算:将整个集合元素以随机数的方式按照比列分为多个RDDgroupBy运算:可以按照传入的匿名函数规则将数据分为多个List多个RDD转...原创 2018-08-21 19:40:02 · 951 阅读 · 0 评论