F_fighting117-CSDN博客

原创 sparkStreaming实践

sparkStreaming实践：案例一：object Scala_List { def main(args: Array[String]): Unit = { Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN) Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logger.getLogger("org.spark-project").setLevel(

2020-09-15 22:32:04 17740

原创 SparkStreaming学习记录

SparkStreaming一、学习内容sparkstreaming基本工作原理的介绍常用的流式框架进行对比sparkstreaming案例体验sparkstreaming数据结构DStreamsparkstreaming整合HDFSsparkstreaming整合Kafkasparkstreaming特性sparkstreaming如何做缓存sparkstreaming如何优化二、概念认知如何理解流式计算：流式计算简单来说就是来一批（小批次，kb级）或者来一条就处理一次流式

2020-09-10 22:33:16 174

原创 kafka api学习笔记

kafka api案例一：生产者的初步使用import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;

2020-09-10 22:29:20 144

原创 Kafka相关知识整理

Kafkakafka是一个分布式发布、订阅模式的消息队列，主要用于大数据的实时处理kafka订阅模式：kafka中同一个组可以有多个消费者，但是一条消息只能被当前组的一个消费者消费。发布订阅模式消费完的消息不会被删除，因为存储在物理磁盘。kafka基础架构：broker：kafka集群每一个节点都叫做 broker cluster：集群topic：主题（生产者和消费者都是面向主题开发的），内部有分区，会把它散落到不同的节点（海量数据存储、容错）1.主题的数据不写到hdfs，如何容错b

2020-09-09 20:41:13 283

原创 sparksql整合hive

RDD、dataframe和dataset的区别：RDD：弹性分布式数据集：对spark中的数据一种抽象（一种类：封装了各种对象和方法），也是一种数据结构特点：1.弹性（数据可以在内存也可以在磁盘、容错性：一个task失败了会自动重试不要手动操作，重试默认是从血缘关系链的头开始、手动持久化了之后从持久化的地方开始）、2.分布式（一个RDD数据散落在不同节点）3.数据集：从hdfs加载到内存，持久化到磁盘dataframe：起源于python的pandas，等于RDD（数据）+schema（元

2020-09-08 21:46:05 371

原创学习spark sql

一、spark sql概述:1.了解官网相关内容 sql概述 sparksql编程数据结构（dataframe , dataset ） SparkSession sparksql基本操作（api使用说明） Global Temporary View RDD如何转换（dataframe , dataset ） udf / udaf (Hive函数) Data Sources sql数据源来自哪里，数据处理之后能够放到哪里 Parquet Files 数据存储格式

2020-09-07 21:32:32 468

原创 spark持久化、共享变量、累加器、排序

spark持久化、共享变量、累加器、排序持久化之前默认没有持久化，每次都从头开始计算，spark2.2.0之后能缓存尽量缓存，实在内存不够用了就随机释放，因此可以通过持久化来改变释放的规则。MEMORY_ONLY ：只持久化内存MEMORY_ONLY_SER ：数据只持久化内存（数据序列化放到内存）MEMORY_AND_DISK：能内存就内存，实在不行就磁盘MEMORY_AND_DISK_SER ：【公司】优先内存—之后磁盘【序列化】内存序列化可以减小内存占用，磁盘序列化可以加速程序和磁盘之

2020-09-05 19:56:25 172

原创 Spark部分算子及使用

Spark部分算子及使用案例一：flatmap算子def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("test1").setMaster("local[1]") val sc = new SparkContext(conf) //UDAF 一对多炸裂 val list: List[String] = List("wuyanzu,pengyuyan,liushishi,zhangju

2020-09-04 23:03:48 350

原创 spark相关知识点

spark相关知识点1.spark是一站式的数据分析引擎spark是一个计算组件，只做计算，不能做存储。里面有一个独立的资源管理系统（可以代替yarn，但一般没人用）sparkRDD：编程的方式做数据分析，取代mapreducesparksql：取代hivesql（两者语句相同）sparkStreaming：取代storm 做实时流sparkml取代机器学习2.四大特性（1）快速：（spark比Hadoop快100倍，实际10倍左右）（因为spark在内存，hadoop在磁盘）（2）易用：

2020-09-03 21:15:31 261

原创 mapValues高阶函数

mapValues高阶函数对象类型泛型：Map类型。只对集合中value做操作、key保持不变。一般用于求和，分组最大，分组最小，均值。常用于分组求聚合。高阶函数（算子）--------sql，用sql语句思路翻译高阶函数。def f1(): Unit ={ var linelist: List[(String, Int)] = List(("hello scala hello world",4), ("hello world",3),("hello hadoop",2),("hello

2020-09-03 21:09:11 1282

原创隐式转换函数高级使用

Scala隐式转换函数的底层原理类型不匹配：java：会强制转换scala：会使用对象的方法进行数据类型转换，隐式转换，scala中只看函数签名（参数列表和返回值）object Scala_List3 { def main(args: Array[String]): Unit = { implicit def f1(d:Double):Int={ d.toInt } implicit def f2(d:Long):Int={ d.toInt

2020-09-02 20:36:10 247

原创 Scala相关知识点

Scala一、动态绑定&属性、方法重写案例一：继承体系的多态概念（动态绑定）object Scala_List { def main(args: Array[String]): Unit = { var user1: User = new User() user1.test1() var user2: Person = new User() user2.test1() } } abstract class Person { def test

2020-09-01 22:11:49 166

原创 2020-08-24

SpringMVC 响应数据和结果视图返回值分类返回值为字符串类型@RequestMapping(value = "findAll") public String findAll(){ return "success"; }controller 方法返回类型为字符串可以指定逻辑视图名，通过视图解析器解析为物理视图地址。指定逻辑视图名，经过视图解析器解析为 jsp 物理路径：/WEB-INF/jsp/success.jsp返回值为void类型Servl

2020-08-24 21:30:05 153

原创 Spring mvc入门

Spring MVCSpring MVC介绍SpringMVC 是一种基于 Java 的实现 MVC 设计模型的请求驱动类型的轻量级 Web 框架。Spring 框架提供了构建 Web 应用程序的全功能 MVC 模块。使用 Spring 可插入的 MVC 架构，从而在使用 Spring 进行 WEB 开发时，可以选择使用 Spring 的 Spring MVC 框架或集成其他 MVC 开发框架，如 Struts2（现在一般不用）SpringMVC 已经成为目前最主流的 MVC 框架之一，它通过一套

2020-08-21 20:43:02 145

原创 Spring JDBC框架与IOC自动注解

Spring JDBC框架Spring JDBC简介Spring JDBC 是spring 官方提供的对jdbc进行了抽象和封装使操作数据库的一个包。Spring框架针对数据库提供了JdbcTemplate 类，JdbcTemplate 是Spring 数据抽象层的基础，其他更高层次的抽象类都是构建在其基础之上。Spring JDBC核心 Spring JDBC的核心是JdbcTemplate模板类，通过该对象可以对数据库操作进行封装，提供一种对数据库进行简化操作的API。它继承自抽象类JdbcA

2020-08-20 20:50:41 269

原创 MyBatis动态查询

MyBatis动态查询resultMap类型标签查询的别名：（例如：数据库表中列名带有下划线，但是实体类一般是驼峰式命名，因此可以通过在映射文件中起别名解决。）主要针对数据表中的字段和实体类中的属性名称不一致，通过在SQL中的as 别名方式，将表中的查询的结课记录的字段名，重新命名为实体类中的属性名。 <select id="findAll" resultType="user"> select userid , acctName as loginName

2020-08-18 21:38:01 906

原创 Hbase的相关知识点

Hbase的相关知识点Hbase产生背景Hbase是什么Hbase需要依赖什么Hbase表结构Hbase特点Hbase产生背景Goole的三驾马车：GFS：分布式的文件系统（现在的HDFS）MapReduce：分布式计算系统（现在的MapReduce）BigTable：分布式的数据库（现在的Hbase）Hbase是什么Hbase是一个hadoop生态圈中的数据库、分布式（主从架构）、可扩展（动态扩容）能存储大量数据（hdfs）。；对海量数据随机的实时的读写访问；hbase集群维护一个超大

2020-08-18 20:41:08 279

F_fighting117的博客