2019年07月_啊策策

原创 SpringBoot入门之SpringBoot概述, java配置发展史, 什么是SpringBoot, SpringBoot特点,SpringBoot核心功能 01

1. SpringBoot概述1.1 什么是配置文件, 由此引出SpringBoot?从我们生活中说起,电脑中也有很多配置文件(*.xml,*.properties, *.ini等), 自从我们接触电话开始,就陪告知不要随意更改/删除这些配置文件. 配置文件也被我们奉若神明.为什么呢?因为这些配置文件也像java中的HashMap一样, 存放于电脑的key-value容器中, 至少容器中存...

2019-07-30 16:44:28 368

原创 DataFrame是什么, DataFrame和RDD的区别, DataFrame和RDD优缺点 19

1. 什么是DataFrameDataFrame的前身是SchemaRDD, 从Spark 1.3.0开始SchemaRDD更名为DataFrame.与SchemaRDD的主要区别是: DataFrame不再直接继承自RDD, 而是自己实现了RDD的绝大多数功能.但仍旧可以在DataFrame上调用RDD方法将其转换为一个RDDDataFrame是一种以RDD为基础的分布式数据集, 类似于...

2019-07-26 11:43:05 2257

原创什么是Spark SQL, Spark SQL优势 18

1. SparkSql的前世今生Shark是一个为Spark设计的大规模数据仓库系统, 它与Hive兼容. Shark建立在Hive的代码基础上, 并通过将Hive的部分物理执行计划交换出来.这个方法使得Shark的用户可以加速Hive的查询, 但是Shark继承了Hive的大且复杂的代码, 使得Shark很难优化和维护, 同时Shark依赖于Spark的版本.随着我们遇到了性能优化的上限...

2019-07-25 18:53:08 2177

原创如何实现远程通信, Dubbo和WebService的区别

1. 如何实现远程通信远程通信: WebService, Restful, Dubbo2. WebService, Restful, Dubbo区别WebService: 效率不高于soap协议, 其主要的特点是跨语言,跨平台的. 项目中不推荐使用, 可用于不同公司间接口的调用.使用Restful形式的服务: http+json. 很多项目中应用. 如果服务太多,服务之间调用关系混乱,需...

2019-07-25 15:22:44 293

原创 WebService是什么 04

WebService介绍首先我们来谈一下为什么需要学习webService这样的一个技术吧…问题一如果我们的网站需要提供一个天气预报这样一个需求的话，那我们该怎么做？？？？？天气预报这么一个功能并不是简单的JS组件就能够实现的，它的数据是依赖数据库分析出来的，甚至需要卫星探测…我们个人建站是不可能搞这么一个数据库的吧。那么既然我们自己干不了，我们可以去找别人吗？？？我们从搜索引擎搜索，...

2019-07-25 14:37:24 138

原创 Dubbo是什么, Dubbo架构

1. Dubbo是什么Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。简单的说，dubbo就是个服务框架，如果没有分布式的需求，其实是不需要用的，只有在分布式的时候，才有dubbo这样的分布式服务框架的需求，并且本质上是个服务调用的东东~说白了就是个远程服务调用的分布式框架（告别Web Service模式中的WSdl，以服务者与消费...

2019-07-25 10:30:26 362

原创 SpringCloud和Dubbo的区别

1. 先说两者的相同点~两者都是远程调用框架2. 两者的不同2.1 两者的模块组成：Dubbo主要分为服务注册中心，服务提供者，服务消费者，还有管控中心；相比起Dubbo简单的四个模块，SpringCloud则是一个完整的分布式一站式框架，他有着一样的服务注册中心，服务提供者，服务消费者，管控台，断路器，分布式配置服务，消息总线，以及服务追踪等；2.2 在性能上来说由于...

2019-07-25 10:15:02 416

原创 Spark设置日志级别的三种方式, Spark-sumbit设置日志级别,修改Spark本地conf设置日志级别, IDEA中设置日志级别 17

1. Spark设置日志级别前言Spark有多种方式设置日志级别,这次主要记录一下如何在Spark-submit设置Spark日志级别,本文介绍三种方式需求因为Spark的日志级别默认为INFO(log4j.rootCategory=INFO, console),这样在运行程序的时候有很多我不需要的日志信息都打印出来了，看起来比较乱，比较烦，抓不住重点，而我只想把warn和error打印...

2019-07-21 17:40:11 15119 3

原创 java中log4j日志级别及配置文件详解, log4j组成, log4j日志级别有哪些, log4jproperties配置文件详解 01

1. Log4j的日志输出级别及配置文件详解1.1 Log4j的组件构成Log4j由三个重要的组件构成：日志信息的优先级，日志信息的输出目的地，日志信息的输出格式。日志信息的优先级从高到低有ERROR、WARN、INFO、DEBUG，分别用来指定这条日志信息的重要程度；日志信息的输出目的地指定了日志将打印到控制台还是文件中；而输出格式则控制了日志信息的显示内容。1.2 日志级别有...

2019-07-21 17:33:10 2038

原创 Spark实战案例二, 通过Spark实现IP地址查询,广播大变量broadcast 16

1. 需求分析在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中, 会统计今年的热门旅游城市, 热门包括学校等.会将这样的信息显示在热点图中.因此,我们需要通过日志信息(运营商或者网站自己生产)和城市ip段信息来判断用户的ip段,统计热点经纬度.2. 技术调研因为我们的需求是完成一张报表信息,所以对程序的实时性没有要求,所以可以选择内存计算spark来实现上述功能.3...

2019-07-21 16:35:30 471

原创 Spark实战案例一, 通过Spark实现点击流日志分析案例, pv和uv, Spark统计PV, Spark统计UV, Spark统计访问的topN 15

1. 案例一: 通过Spark实现点击流日志分析前言:pv, uv概念**PV: ** 重视每一次的访问, 一个用户访问一次就记录一次. 访问一个页面算作一次PVUV: 重视每一次会话的情况, 30分钟内如果同一个seesion一直访问不同页面,则只记录一个UV,一天之内访问网站不重复的用户数. 不重复的用户越多, 说明我这个网站访问的人数越多. 使用cookie来进行区分不同的用户....

2019-07-21 15:46:33 1068

原创 Spark的执行原理,本地Master模式, Yarn_cluster模式运行, Yarn_client模式运行, Yarn_cluster和Yarn_client的区别 14

1. 本地Master负责调度资源1.1 命令行bin/spark-submit --class cn.spark.com.WordCountForHDFS \--master spark:node01:8080 \--executor-memory 1g \ //每个executor分配1g的内存--total-executor-cores 4 \ //所有的executor加起来核数...

2019-07-17 09:36:31 2358

原创 Yarn的调度器, Spark的任务调度, DAGSchedule, TaskSchedule, worder 13

1. 复习, Yarn三种调度器1.1 什么是调度器主要是用于研究一个任务提交之后,下一个任务又来了改怎么执行. 绝对我们任务如何进行执行.1.2 Yarn当中的调度器主要有三种第一种:队列调度器FIFO: 第一个任务提交,先执行.然后第二个任务提交,等着第一个任务执行完毕之后再执行第二个任务....

2019-07-15 19:19:05 393

原创 Spark中DAG是什么, DAG中Stage如何划分 12

1. 什么是DAGDAG(Directed Acyclic Graph)叫做有向五环图, 原始的RDD通过一系统的转换就形成了DAG.根据RDD之间依赖关系的不同, 将DAG换分成不同的Stage(调度阶段).对于窄依赖, parition的转换处理在一个Stage中完成计算对于宽依赖,由于有Shuffle的存在,只能在Parent RDD处理完成后,才能开始计算接下来的计算.宽依赖是划...

2019-07-11 11:37:10 1438 2

原创 RDD的缓存机制, cache和persist的区别, checkpoint检查点, checkpoint代码实现方式, 缓存和checkpoint设置之后的读取顺序 11

1. RDD的缓存Spark运算速度非常快的原因之一, 就是在不同操作中可以再内存中持久化或者缓存数据集.当持久化某个RDD后, 每一个节点都将计算分区结果保存在内存中, 对此RDD或衍生出的RDD进行的其他动作中重用.这使得后续的动作变得更加迅速.RDD相关的持久化和缓存, 是Spark最重要的特征之一.缓存是Spark构建迭代式算法和快速交互式查询的关键....

2019-07-11 11:01:51 519

原创 RDD的依赖关系, 宽依赖, 窄依赖, Lineage血统 10

1. RDD的依赖关系RDD和它依赖的父RDD的关系有两种不同的类型,窄依赖(narrow dependency)宽依赖(wide dependency)2. 窄依赖 narrow dependency窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用.总结: 窄依赖可以形象的比喻为独生子女.3. 宽依赖宽依赖指的的是多个子RDD的Par...

2019-07-09 09:53:33 293

原创 RDD常用的算子操作, map和mapPartitions区别, groupByKey和groupBy区别, repartition和coalesce区别, 广播大变量broadcast 09

1. filterfilter 是对RDD中的每个元素都执行一个指定的函数来过滤产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。val rdd = sc.parallelize(List(1,2,3,4,5,6)) val filterRdd = rdd.filter(_ > 5)filterRdd.collect() //返回所有大于5的数据的一...

2019-07-08 19:56:42 990

原创创建RDD3种方法, RDD算子分类, Transformation在worker中执行, Action算子在Driver中执行 08

创建RDD的3中方法有一个已经存在的Scala集合创建val rdd = sc.parallelize(Array(1,2,3,4,5,6))有外部存储系统的文件创建,包括本地的文件系统,还有所有Hadoop支持的数据集,比如HDFS,Cassandra,Hbase等val rdd = sc.textFile("/words.txt")已有的RDD经过算子转换生成新的RD...

2019-07-05 20:15:32 351

原创弹性分布式数据集RDD, RDD的属性, 为什么会产生RDD, Spark如何解决迭代计算, Spark如何实现交互式计算 07

1. 什么是RDDRDD(Reilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可并行计算的集合.RDD具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性.RDD允许用户在执行多个查询时显示地将数据缓存在内存中,后续的查询能够重用这些数据,这极大地提升了查询速度.Dataset:一个数据集...

2019-07-05 14:39:47 953

啊策策大数据社区