- 博客(17)
- 收藏
- 关注
原创 sparkStreaming实践
sparkStreaming实践:案例一:object Scala_List { def main(args: Array[String]): Unit = { Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN) Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logger.getLogger("org.spark-project").setLevel(
2020-09-15 22:32:04 17740
原创 SparkStreaming学习记录
SparkStreaming一、学习内容sparkstreaming基本工作原理的介绍常用的流式框架进行对比sparkstreaming案例体验sparkstreaming数据结构DStreamsparkstreaming整合HDFSsparkstreaming整合Kafkasparkstreaming特性sparkstreaming如何做缓存sparkstreaming如何优化二、概念认知如何理解流式计算:流式计算简单来说就是来一批(小批次,kb级)或者来一条就处理一次流式
2020-09-10 22:33:16 174
原创 kafka api学习笔记
kafka api案例一:生产者的初步使用import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;
2020-09-10 22:29:20 144
原创 Kafka相关知识整理
Kafkakafka是一个分布式发布、订阅模式的消息队列,主要用于大数据的实时处理kafka订阅模式:kafka中同一个组可以有多个消费者,但是一条消息只能被当前组的一个消费者消费。发布订阅模式消费完的消息不会被删除,因为存储在物理磁盘。kafka基础架构:broker:kafka集群每一个节点都叫做 broker cluster:集群topic:主题(生产者和消费者都是面向主题开发的),内部有分区,会把它散落到不同的节点(海量数据存储、容错)1.主题的数据不写到hdfs,如何容错b
2020-09-09 20:41:13 283
原创 sparksql整合hive
RDD、dataframe和dataset的区别:RDD:弹性分布式数据集:对spark中的数据一种抽象(一种类:封装了各种对象和方法),也是一种数据结构特点:1.弹性(数据可以在内存也可以在磁盘、容错性:一个task失败了会自动重试不要手动操作,重试默认是从血缘关系链的头开始、手动持久化了之后从持久化的地方开始)、2.分布式(一个RDD数据散落在不同节点)3.数据集:从hdfs加载到内存,持久化到磁盘dataframe:起源于python的pandas,等于RDD(数据)+schema(元
2020-09-08 21:46:05 371
原创 学习spark sql
一、spark sql概述:1.了解官网相关内容 sql概述 sparksql编程数据结构(dataframe , dataset ) SparkSession sparksql基本操作(api使用说明) Global Temporary View RDD如何转换(dataframe , dataset ) udf / udaf (Hive函数) Data Sources sql数据源来自哪里,数据处理之后能够放到哪里 Parquet Files 数据存储格式
2020-09-07 21:32:32 468
原创 spark持久化、共享变量、累加器、排序
spark持久化、共享变量、累加器、排序持久化之前默认没有持久化,每次都从头开始计算,spark2.2.0之后能缓存尽量缓存,实在内存不够用了就随机释放,因此可以通过持久化来改变释放的规则。MEMORY_ONLY :只持久化内存MEMORY_ONLY_SER :数据只持久化内存(数据序列化放到内存)MEMORY_AND_DISK:能内存就内存,实在不行就磁盘MEMORY_AND_DISK_SER :【公司】优先内存—之后磁盘【序列化】内存序列化可以减小内存占用,磁盘序列化可以加速程序和磁盘之
2020-09-05 19:56:25 172
原创 Spark部分算子及使用
Spark部分算子及使用案例一:flatmap算子def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("test1").setMaster("local[1]") val sc = new SparkContext(conf) //UDAF 一对多 炸裂 val list: List[String] = List("wuyanzu,pengyuyan,liushishi,zhangju
2020-09-04 23:03:48 350
原创 spark相关知识点
spark相关知识点1.spark是一站式的数据分析引擎spark是一个计算组件,只做计算,不能做存储。里面有一个独立的资源管理系统(可以代替yarn,但一般没人用)sparkRDD:编程的方式做数据分析,取代mapreducesparksql:取代hivesql(两者语句相同)sparkStreaming:取代storm 做实时流sparkml取代机器学习2.四大特性(1)快速:(spark比Hadoop快100倍,实际10倍左右)(因为spark在内存,hadoop在磁盘)(2)易用:
2020-09-03 21:15:31 261
原创 mapValues高阶函数
mapValues高阶函数对象类型泛型:Map类型。只对集合中value做操作、key保持不变。一般用于求和,分组最大,分组最小,均值。常用于分组求聚合。高阶函数(算子)--------sql,用sql语句思路翻译高阶函数。def f1(): Unit ={ var linelist: List[(String, Int)] = List(("hello scala hello world",4), ("hello world",3),("hello hadoop",2),("hello
2020-09-03 21:09:11 1282
原创 隐式转换函数高级使用
Scala隐式转换函数的底层原理类型不匹配:java:会强制转换scala:会使用对象的方法进行数据类型转换,隐式转换,scala中只看函数签名(参数列表和返回值)object Scala_List3 { def main(args: Array[String]): Unit = { implicit def f1(d:Double):Int={ d.toInt } implicit def f2(d:Long):Int={ d.toInt
2020-09-02 20:36:10 247
原创 Scala相关知识点
Scala一、动态绑定&属性、方法重写案例一:继承体系的多态概念(动态绑定)object Scala_List { def main(args: Array[String]): Unit = { var user1: User = new User() user1.test1() var user2: Person = new User() user2.test1() } } abstract class Person { def test
2020-09-01 22:11:49 166
原创 2020-08-24
SpringMVC 响应数据和结果视图返回值分类返回值为字符串类型@RequestMapping(value = "findAll") public String findAll(){ return "success"; }controller 方法返回类型为字符串可以指定逻辑视图名,通过视图解析器解析为物理视图地址。指定逻辑视图名,经过视图解析器解析为 jsp 物理路径:/WEB-INF/jsp/success.jsp返回值为void类型Servl
2020-08-24 21:30:05 153
原创 Spring mvc入门
Spring MVCSpring MVC介绍SpringMVC 是一种基于 Java 的实现 MVC 设计模型的请求驱动类型的轻量级 Web 框架。Spring 框架提供了构建 Web 应用程序的全功能 MVC 模块。使用 Spring 可插入的 MVC 架构,从而在使用 Spring 进行 WEB 开发时,可以选择使用 Spring 的 Spring MVC 框架或集成其他 MVC 开发框架,如 Struts2(现在一般不用)SpringMVC 已经成为目前最主流的 MVC 框架之一,它通过一套
2020-08-21 20:43:02 145
原创 Spring JDBC框架与IOC自动注解
Spring JDBC框架Spring JDBC简介Spring JDBC 是spring 官方提供的对jdbc进行了抽象和封装使操作数据库的一个包。Spring框架针对数据库提供了JdbcTemplate 类,JdbcTemplate 是Spring 数据抽象层的基础,其他更高层次的抽象类都是构建在其基础之上。Spring JDBC核心 Spring JDBC的核心是JdbcTemplate模板类,通过该对象可以对数据库操作进行封装,提供一种对数据库进行简化操作的API。它继承自抽象类JdbcA
2020-08-20 20:50:41 269
原创 MyBatis动态查询
MyBatis动态查询resultMap类型标签查询的别名:(例如:数据库表中列名带有下划线,但是实体类一般是驼峰式命名,因此可以通过在映射文件中起别名解决。)主要针对数据表中的字段和实体类中的属性名称不一致,通过在SQL中的as 别名方式,将表中的查询的结课记录的字段名,重新命名为实体类中的属性名。 <select id="findAll" resultType="user"> select userid , acctName as loginName
2020-08-18 21:38:01 906
原创 Hbase的相关知识点
Hbase的相关知识点Hbase产生背景Hbase是什么Hbase需要依赖什么Hbase表结构Hbase特点Hbase产生背景Goole的三驾马车:GFS:分布式的文件系统(现在的HDFS)MapReduce:分布式计算系统(现在的MapReduce)BigTable:分布式的数据库(现在的Hbase)Hbase是什么Hbase是一个hadoop生态圈中的数据库、分布式(主从架构)、可扩展(动态扩容)能存储大量数据(hdfs)。;对海量数据随机的实时的读写访问;hbase集群维护一个超大
2020-08-18 20:41:08 279
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人