自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 sparkStreaming实践

sparkStreaming实践:案例一:object Scala_List { def main(args: Array[String]): Unit = { Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN) Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logger.getLogger("org.spark-project").setLevel(

2020-09-15 22:32:04 17740

原创 SparkStreaming学习记录

SparkStreaming一、学习内容sparkstreaming基本工作原理的介绍常用的流式框架进行对比sparkstreaming案例体验sparkstreaming数据结构DStreamsparkstreaming整合HDFSsparkstreaming整合Kafkasparkstreaming特性sparkstreaming如何做缓存sparkstreaming如何优化二、概念认知如何理解流式计算:流式计算简单来说就是来一批(小批次,kb级)或者来一条就处理一次流式

2020-09-10 22:33:16 174

原创 kafka api学习笔记

kafka api案例一:生产者的初步使用import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;

2020-09-10 22:29:20 144

原创 Kafka相关知识整理

Kafkakafka是一个分布式发布、订阅模式的消息队列,主要用于大数据的实时处理kafka订阅模式:kafka中同一个组可以有多个消费者,但是一条消息只能被当前组的一个消费者消费。发布订阅模式消费完的消息不会被删除,因为存储在物理磁盘。kafka基础架构:broker:kafka集群每一个节点都叫做 broker cluster:集群topic:主题(生产者和消费者都是面向主题开发的),内部有分区,会把它散落到不同的节点(海量数据存储、容错)1.主题的数据不写到hdfs,如何容错b

2020-09-09 20:41:13 283

原创 sparksql整合hive

RDD、dataframe和dataset的区别:RDD:弹性分布式数据集:对spark中的数据一种抽象(一种类:封装了各种对象和方法),也是一种数据结构特点:1.弹性(数据可以在内存也可以在磁盘、容错性:一个task失败了会自动重试不要手动操作,重试默认是从血缘关系链的头开始、手动持久化了之后从持久化的地方开始)、2.分布式(一个RDD数据散落在不同节点)3.数据集:从hdfs加载到内存,持久化到磁盘dataframe:起源于python的pandas,等于RDD(数据)+schema(元

2020-09-08 21:46:05 371

原创 学习spark sql

一、spark sql概述:1.了解官网相关内容​ sql概述​ sparksql编程数据结构(dataframe , dataset )​ SparkSession​ sparksql基本操作(api使用说明)​ Global Temporary View​ RDD如何转换(dataframe , dataset )​ udf / udaf (Hive函数)​ Data Sources sql数据源来自哪里,数据处理之后能够放到哪里​ Parquet Files 数据存储格式

2020-09-07 21:32:32 468

原创 spark持久化、共享变量、累加器、排序

spark持久化、共享变量、累加器、排序持久化之前默认没有持久化,每次都从头开始计算,spark2.2.0之后能缓存尽量缓存,实在内存不够用了就随机释放,因此可以通过持久化来改变释放的规则。MEMORY_ONLY :只持久化内存MEMORY_ONLY_SER :数据只持久化内存(数据序列化放到内存)MEMORY_AND_DISK:能内存就内存,实在不行就磁盘MEMORY_AND_DISK_SER :【公司】优先内存—之后磁盘【序列化】内存序列化可以减小内存占用,磁盘序列化可以加速程序和磁盘之

2020-09-05 19:56:25 172

原创 Spark部分算子及使用

Spark部分算子及使用案例一:flatmap算子def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("test1").setMaster("local[1]") val sc = new SparkContext(conf) //UDAF 一对多 炸裂 val list: List[String] = List("wuyanzu,pengyuyan,liushishi,zhangju

2020-09-04 23:03:48 350

原创 spark相关知识点

spark相关知识点1.spark是一站式的数据分析引擎spark是一个计算组件,只做计算,不能做存储。里面有一个独立的资源管理系统(可以代替yarn,但一般没人用)sparkRDD:编程的方式做数据分析,取代mapreducesparksql:取代hivesql(两者语句相同)sparkStreaming:取代storm 做实时流sparkml取代机器学习2.四大特性(1)快速:(spark比Hadoop快100倍,实际10倍左右)(因为spark在内存,hadoop在磁盘)(2)易用:

2020-09-03 21:15:31 261

原创 mapValues高阶函数

mapValues高阶函数对象类型泛型:Map类型。只对集合中value做操作、key保持不变。一般用于求和,分组最大,分组最小,均值。常用于分组求聚合。高阶函数(算子)--------sql,用sql语句思路翻译高阶函数。def f1(): Unit ={ var linelist: List[(String, Int)] = List(("hello scala hello world",4), ("hello world",3),("hello hadoop",2),("hello

2020-09-03 21:09:11 1282

原创 隐式转换函数高级使用

Scala隐式转换函数的底层原理类型不匹配:java:会强制转换scala:会使用对象的方法进行数据类型转换,隐式转换,scala中只看函数签名(参数列表和返回值)object Scala_List3 { def main(args: Array[String]): Unit = { implicit def f1(d:Double):Int={ d.toInt } implicit def f2(d:Long):Int={ d.toInt

2020-09-02 20:36:10 247

原创 Scala相关知识点

Scala一、动态绑定&属性、方法重写案例一:继承体系的多态概念(动态绑定)object Scala_List { def main(args: Array[String]): Unit = { var user1: User = new User() user1.test1() var user2: Person = new User() user2.test1() } } abstract class Person { def test

2020-09-01 22:11:49 166

原创 2020-08-24

SpringMVC 响应数据和结果视图返回值分类返回值为字符串类型@RequestMapping(value = "findAll") public String findAll(){ return "success"; }controller 方法返回类型为字符串可以指定逻辑视图名,通过视图解析器解析为物理视图地址。指定逻辑视图名,经过视图解析器解析为 jsp 物理路径:/WEB-INF/jsp/success.jsp返回值为void类型Servl

2020-08-24 21:30:05 153

原创 Spring mvc入门

Spring MVCSpring MVC介绍SpringMVC 是一种基于 Java 的实现 MVC 设计模型的请求驱动类型的轻量级 Web 框架。Spring 框架提供了构建 Web 应用程序的全功能 MVC 模块。使用 Spring 可插入的 MVC 架构,从而在使用 Spring 进行 WEB 开发时,可以选择使用 Spring 的 Spring MVC 框架或集成其他 MVC 开发框架,如 Struts2(现在一般不用)SpringMVC 已经成为目前最主流的 MVC 框架之一,它通过一套

2020-08-21 20:43:02 145

原创 Spring JDBC框架与IOC自动注解

Spring JDBC框架Spring JDBC简介Spring JDBC 是spring 官方提供的对jdbc进行了抽象和封装使操作数据库的一个包。Spring框架针对数据库提供了JdbcTemplate 类,JdbcTemplate 是Spring 数据抽象层的基础,其他更高层次的抽象类都是构建在其基础之上。Spring JDBC核心​ Spring JDBC的核心是JdbcTemplate模板类,通过该对象可以对数据库操作进行封装,提供一种对数据库进行简化操作的API。它继承自抽象类JdbcA

2020-08-20 20:50:41 269

原创 MyBatis动态查询

MyBatis动态查询resultMap类型标签查询的别名:(例如:数据库表中列名带有下划线,但是实体类一般是驼峰式命名,因此可以通过在映射文件中起别名解决。)主要针对数据表中的字段和实体类中的属性名称不一致,通过在SQL中的as 别名方式,将表中的查询的结课记录的字段名,重新命名为实体类中的属性名。 <select id="findAll" resultType="user"> select userid , acctName as loginName

2020-08-18 21:38:01 906

原创 Hbase的相关知识点

Hbase的相关知识点Hbase产生背景Hbase是什么Hbase需要依赖什么Hbase表结构Hbase特点Hbase产生背景Goole的三驾马车:GFS:分布式的文件系统(现在的HDFS)MapReduce:分布式计算系统(现在的MapReduce)BigTable:分布式的数据库(现在的Hbase)Hbase是什么Hbase是一个hadoop生态圈中的数据库、分布式(主从架构)、可扩展(动态扩容)能存储大量数据(hdfs)。;对海量数据随机的实时的读写访问;hbase集群维护一个超大

2020-08-18 20:41:08 279

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除