自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(258)
  • 收藏
  • 关注

转载 Update:sparksql:第1节 SparkSQL_使用场景_优化器_Dataset

目标SparkSQL是什么SparkSQL如何使用Table of Contents1. SparkSQL 是什么1.1. SparkSQL 的出现契机1.2. SparkSQL 的适用场景2. SparkSQL 初体验2.3. RDD 版本的 WordCount2.2. ...

2019-09-30 23:11:00 588

转载 sparksql报错

执行时报错:org.apache.spark.sql.AnalysisException: Unable to generate an encoder for inner class `cn.itcast.spark.sql.Intro$Person` without access to the scope that this class was defined in.Try mov...

2019-09-30 22:23:00 587

转载 Update:Spark原理_运行过程_高级特性

如何判断宽窄依赖:===================================6. Spark 底层逻辑导读从部署图了解Spark部署了什么, 有什么组件运行在集群中通过对WordCount案例的解剖, 来理解执行逻辑计划的生成通过对逻辑执行计划的细化, 理解如何生成物理计划...

2019-09-29 21:12:00 358

转载 Update:spark_rdd算子:第2节 RDD_action算子_分区_缓存:缓存、Checkpoint

4. 缓存概要缓存的意义缓存相关的 API缓存级别以及最佳实践4.1. 缓存的意义使用缓存的原因 - 多次使用 RDD需求: 在日志文件中找到访问次数最少的 IP 和访问次数最多的 IPval conf = new SparkConf().setMaster("local[6]...

2019-09-28 21:23:00 151

转载 Update:spark_rdd算子:第2节 RDD_action算子_分区_缓存:算子和分区

一、reduce和reduceByKey:二、:RDD 的算子总结RDD 的算子大部分都会生成一些专用的 RDDmap,flatMap,filter等算子会生成MapPartitionsRDDcoalesce,repartition等算子会生成CoalescedRDD常见的 RDD 有两种类型...

2019-09-28 10:37:00 118

转载 Update:spark_rdd算子:第1节 RDD_定义_转换算子:深入RDD

一、二、案例:详见代码。针对案例提出的6个问题:假设要针对整个网站的历史数据进行处理, 量有 1T, 如何处理?放在集群中, 利用集群多台计算机来并行处理如何放在集群中运行?简单来讲, 并行计算就是同时使用多个计算资源解决一个问题, 有如下四个要点要解决的问题必须可以分解为多个可以并...

2019-09-25 23:04:00 214

转载 idea使用小技巧

1.按住alt,鼠标往下拉一条直线,可以选中一列或多列,或者不选中任何文字,可以让光标定位到这几行的相同的列的位置,然后输入文本,发现在被选中的所有行同时输入了这些文本(类似notepad++):2.转载于:https://www.cnblogs.com/mediocreWorld/p/11530666.html...

2019-09-16 22:20:00 89

转载 Notepad++查看文本文件的总的字符数、GBK字节数、UTF8字节数

如果其编码是小结:UTF-8编码下,一个汉字占3字节,GBK编码下,一个汉字占2字节:转载于:https://www.cnblogs.com/mediocreWorld/p/11530573.html...

2019-09-16 22:01:00 4090

转载 idea中scala项目补全变量、添加打印语句的小技巧

1. 自动补全变量:new Person.var ,然后按回车键;效果:代码变成: val person: Person = new Person2.添加打印语句:person.name.prln (也可以是prtln) ,然后按回车键。效果,代码变成: println(person.name)转载于:https://www.cnblogs.com/mediocr...

2019-09-13 17:24:00 490

转载 Base64

Base64是网络上最常见的用于传输8Bit字节码的编码方式之一,Base64就是一种基于64个可打印字符来表示二进制数据的方法。可查看RFC2045~RFC2049,上面有MIME的详细规范。Base64编码是从二进制到字符的过程,可用于在HTTP环境下传递较长的标识信息。采用Base64编码具有不可读性,需要解码后才能阅读。Base64由于以上优点被广泛应用于计算机的各个领域...

2019-09-11 22:23:00 88

转载 编码、摘要、加密

1、编码、摘要、加密的区别:相同点:  三种方式都是通过某种公开的算法将原始信息进行编码 /加密不同点:  编码:将数据转化成某种固定的格式的编码信息,方便不同系统间的传输,通过解码编码信息可以得到原始信息  哈希(又称为摘要、散列):验证信息的唯一性,不能通过哈希值还原原始信息  加密:加密传输信息,保证信息的安全性,通过密钥和密文可以还原原始信息编码...

2019-09-11 00:13:00 420

转载 scala补充知识

1.惰性加载:在企业的大数据开发中,有时候会编写非常复杂的SQL语句,这些SQL语句可能有几百行甚至上千行。这些SQL语句,如果直接加载到JVM中,会有很大的内存开销。如何解决?当有一些变量保存的数据较大时,但是不需要马上加载到JVM内存。可以使用惰性赋值来提高效率。语法格式:lazy val/var 变量名 = 表达式2.scala提供多种定义字符串的方...

2019-09-07 22:48:00 124

转载 身份证号码的组成

公民身份号码的不仅应用在居民身份证上,也运用于其他领域。身份证的基本由地址码、出生日期码、顺序及性别码、校验和这几样构成。一般身份证最后一位都是数字,为什么还会出现字母X呢?原因就是居民身份证号码是按照国家标准编制的,由18位组成,?第18位立为校验码。?校验码是由号码编制单位按统-?-的公式计算出来的,如果某人的尾号是0-9,都不会出现X,但如果尾号是10,那么就得用X来代替,因为如果...

2019-09-06 21:55:00 4883

转载 Oracle的TO_CHAR()格式化数字为百分数的字符串

TO_CHAR(-0.926903249,'FM999999990.00') || '%'说明:1,(点号) :'99.99' :点号,不要念为"句号",句号是个圆圈,点号只能出现在小数点对应的地方.只能出现一次。2,0(零) '0999.99' :零,在对应位置返回对应的字符,如果没有则以'0'填充。3,9 '999.99' :9在小...

2019-09-06 09:56:00 1417

转载 转载和补充:Oracle中的一些特殊字符

oracle通配符,运算符的使用用于where比较条件的有:等于:=、<、<=、>、>=、<>包含:in、not in exists、not exists范围:between...and、not between....and匹配测试:like、not likeNull测试:is null、is not null布尔链接:an...

2019-09-06 09:52:00 270

转载 redis哨兵模式启动redis-sentinel sentinel.conf 报错

[root@node01 redis-3.2.8]# redis-sentinel sentinel.conf*** FATAL CONFIG FILE ERROR ***Reading the configuration file, at line 73>>> 'sentinel auth-pass 192.168.8.100 123456'No such mas...

2019-09-05 21:59:00 1940

转载 redis使用技巧小结

一、Redis 密码设置和查看密码redis没有实现访问控制这个功能,但是它提供了一个轻量级的认证方式,可以编辑redis.conf配置来启用认证。1、初始化Redis密码:在配置文件中有个参数:requirepass,这个就是配置redis访问密码的参数;比如 requirepass password(Ps:需重启Redis才能生效) redis的查询速度是非常快的,外部用户一秒内可以...

2019-09-04 23:33:00 168

转载 第1节 redis组件:10、redis集群

10、redis集群1、redis集群的介绍Redis 集群是一个提供在多个Redis节点之间共享数据的程序集。Redis 集群并不支持同时处理多个键的 Redis 命令,因为这需要在多个节点间移动数据,这样会降低redis集群的性能,在高负载的情况下可能会导致不可预料的错误。Redis 集群通过分区来提供一定程度的可用性,即使集群中有一部分节点失效或者无法进行通讯, 集...

2019-09-04 00:22:00 137

转载 第1节 redis组件:8、主从复制架构;9、Sentinel架构

8、redis的主从复制架构在Redis中,用户可以通过执行SLAVEOF命令或者设置slaveof选项,让一个服务器去复制(replicate)另一个服务器,我们称呼被复制的服务器为主服务器(master),而对主服务器进行复制的服务器则被称为从服务器(slave),如图所示。使用主从复制这种模式,实现node01作为主节点,node02与node03作为从节点,并且将...

2019-09-04 00:20:00 112

转载 第1节 redis组件:7、持久化

7、redis的持久化由于redis是一个内存数据库,所有的数据都是保存在内存当中的,内存当中的数据极易丢失,所以redis的数据持久化就显得尤为重要,在redis当中,提供了两种数据持久化的方式,分别为RDB以及AOF,且redis默认开启的数据持久化方式为RDB方式,接下来我们就分别来看下两种方式的配置吧1、RDB持久化方案介绍RDB方案介绍Redis会定期保存...

2019-09-04 00:14:00 91

转载 第1节 redis组件:4、安装(略);5、数据类型(略);6、javaAPI操作;

第三步:redis的javaAPI操作操作string类型数据操作hash列表类型数据操作list类型数据操作set类型的数据详见代码转载于:https://www.cnblogs.com/mediocreWorld/p/11456564.html...

2019-09-04 00:12:00 111

转载 第1节 redis组件:1 - 3、web发展历史以及redis简介

Redis课程教案1、 NoSQL数据库的发展历史简介1、web系统的变迁历史web1.0时代简介基本上就是一些简单的静态页面的渲染,不会涉及到太多的复杂业务逻辑,功能简单单一,基本上服务器性能不会有太大压力缺点:1、Service 越来越多,调用关系变复杂,前端搭建本地环境不再是一件简单的事。考虑团队协作,往往会考虑搭建集中式的开发服务器来解决。这种解决方...

2019-09-03 23:51:00 146

转载 linux Shell(待学)

2. Shell2.1 简介shell脚本执行方式Shell 是一个用 C 语言编写的程序,通过 Shell 用户可以访问操作系统内核服务。它类似于 DOS 下的 command 和后来的 cmd.exe。Shell 既是一种命令语言,又是一种程序设计语言。Shell script 是一种为 shell 编写的脚本程序。Shell 编程一般指 shell脚本编程,不是指开发 ...

2019-09-03 22:41:00 92

转载 linux 管道相关命令(待学)

1.1 cutcut:以某种方式按照文件的行进行分割参数列表: -b 按字节选取 忽略多字节字符边界,除非也指定了 -n 标志 -c 按字符选取 -d 自定义分隔符,默认为制表符。 -f 与-d一起使用,指定显示哪个区域。 范围控制: n:只有第n项 n-:从第n项一直到行尾 n-m:从第n项到第m项(包括m) 准备工作vim 1.txt ...

2019-09-03 22:39:00 1018

转载 linux用户权限、系统信息相关命令(待学)

用户权限相关命令目标用户 和 权限 的基本概念用户管理 终端命令组管理 终端命令修改权限 终端命令01.用户和权限的基本概念1.1 基本概念用户 是Linux系统工作中重要的一环, 用户管理包括 用户 与 组 管理在Linux系统中, 不论是由本级或是远程登录系统, 每个系统都必须拥有一个账...

2019-09-03 21:41:00 86

转载 Linux:vi & vim(待学)

VI编辑器_终端编辑器目标vi简介打开和新建文件三种工作模式常用命令查询1 简介1.1 学习vi的目的在工作中, 要对 服务器上的 文件进行 简单 的修改, 可以使用 ssh 登录到远程服务器上, 并且使用 vi编辑器 进行简单的编辑即可需要修改的文件包括源代码配置文件 ...

2019-09-03 21:29:00 198

转载 sparkRDD:第4节 RDD的依赖关系;第5节 RDD的缓存机制;第6节 DAG的生成

4. RDD的依赖关系6.1 RDD的依赖RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。6.2 窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用总结:窄依赖我们形象的比喻为独生子女。窄依赖不会产生...

2019-08-29 22:00:00 191

转载 sparkRDD:第3节 RDD常用的算子操作

4. RDD编程API4.1 RDD的算子分类 Transformation(转换):根据数据集创建一个新的数据集,计算后返回一个新RDD;例如:一个rdd进行map操作后生了一个新的rdd。Action(动作):对rdd结果计算后返回一个数值value给驱动程序,或者把结果存储到外部存储系统(例如HDFS)中;例如:collect算子将数据集的所有...

2019-08-29 21:55:00 482

转载 sparkRDD:第1节 RDD概述;第2节 创建RDD

RDD的特点:(1)rdd是数据集;(2)rdd是编程模型:因为rdd有很多数据计算方法如map,flatMap,reduceByKey等;(3)rdd相互之间有依赖关系;(4)rdd是可以分区的,如下图所示:=======================================Spark计算模型RDD一、 课程目标目标1:掌握RD...

2019-08-29 21:50:00 253

转载 Spark程序编译报错error: object apache is not a member of package org

Spark程序编译报错:[INFO] Compiling 2 source files to E:\Develop\IDEAWorkspace\spark\target\classes at 1567004370534[ERROR] E:\Develop\IDEAWorkspace\spark\src\main\scala\cn\itcast\wordCount\WordCount....

2019-08-28 23:01:00 4458

转载 导入spark程序的maven依赖包时,无法导入,报错Unable to import maven project: See logs for details...

问题:导入spark程序的maven依赖包时,无法导入,且报错:0:23 Unable to import maven project: See logs for details2019-08-23 00:34:05,140 [ 747292] WARN - #org.jetbrains.idea.maven - Cannot reconnect. java.lang....

2019-08-28 22:07:00 1292

转载 hdfs dfs ls /列出了本地根目录下文件夹和文件Warning: fs.defaultFS is not set when running "ls" command...

[root@node01 customShells]# hdfs dfs -ls /Warning: fs.defaultFS is not set when running "ls" command.原因: /usr/bin/ 下存在 hadoop和hdfs可执行文件,usr/bin 是优先查找的路径,所以先找到了 、usr/bin 下面的hdfs,直接执行了。 执行的不是你安装目...

2019-08-27 22:43:00 1112

转载 Spark入门:第4节 Spark程序:1 - 9

五、 Spark角色介绍Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算,比Hadoop中MapReduce计算框架具有更高的实时性,同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目,并成功应用于商业集群中,学习Spark就需要了解其架构。Spark架构图如下:Spark架构使用了分布式计算中ma...

2019-08-26 20:46:00 198

转载 Spark入门:第2节 Spark集群安装:1 - 3;第3节 Spark HA高可用部署:1 - 2

三、 Spark集群安装3.1 下载spark安装包 下载地址spark官网:http://spark.apache.org/downloads.html这里我们使用spark-2.1.3-bin-hadoop2.7版本.3.2 规划安装目录/export/servers3.3 解压安装包tar -zxvf spark-2.1.3-...

2019-08-26 20:28:00 124

转载 Spark入门:第1节 Spark概述:1 - 4

2、spark概述2.1 什么是sparkApache Spark™ is a unified analytics engine for large-scale data processing.apache的spark是一个针对于大规模数据处理的统一分析引擎spark是基于内存的计算框架,计算速度非常快,但是这里仅仅只涉及到数据的计算,并...

2019-08-25 23:22:00 237

转载 Redis操作命令

1.String类型数据操作命令:exists mykeyappend a "hello" #可以不加引号get aset b "this is redis"strlen bincr cincrby c 3decr cdecrby c 3del cgetset d "haha"setex e 8 "expired after 8 s"...

2019-08-22 22:18:00 86

转载 帆软FineReport报表由于使用HTML显示后无法控制行高

问题:帆软FineReport报表由于使用HTML显示后无法控制行高。原因:首先每行的第一个单元格是以HTML显示的,然后,数据库查询的数据集中,sql语句中包含这个代码:'<pre>' || max(a.a1),表示该单元格中的内容是包含在<pre>标签中的,两者一结合,就产生这个问题了。因为单元格以HTML显示内容的话,其显示样式比如高度、宽度等,部分是有...

2019-08-22 21:59:00 1224

转载 帆软FineReport报表使用小技巧

1.IF函数写法: =IF(E3=0 && F3=0 && G3=0,1,0)转载于:https://www.cnblogs.com/mediocreWorld/p/11397075.html

2019-08-22 21:48:00 403

转载 Excel使用小技巧

1.Excel随机设置单元格的内容为整数0或1:  在单元格中写公式: =ROUND(RAND(),0)2.设置某个单元格的值为1或0,根据其他3个单元格的值为0或1来确定:  在该单元格中写公式: =IF(AND(E7=0, F7=0, G7=0),1,0)转载于:https://www.cnblogs.com/mediocreWorld/p/113970...

2019-08-22 21:46:00 69

转载 03.Scala编程实战

Scala编程实战1. 课程目标1.1. 目标:使用Akka实现一个简易版的spark通信框架2. 项目概述2.1. 需求Hivesql----------> select count(*) from user----->整个表只有1条数据Map 0% reduce 0%Map 10% reduc...

2019-08-21 23:11:00 163

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除