- 博客(18)
- 收藏
- 关注
原创 XML 踩坑
问题一:XML 中的转义字符不合法的XML字符必须被替换为相应的实体。如果在XML文档中使用类似"<" 的字符, 那么解析器将会出现错误,因为解析器会认为这是一个新元素的开始。所以不应该象下面那样书写代码:if salary < 1000 then为了避免出现这种情况,必须将字符"<" 转换成实体,象下面这样:if salar < 1000 then下面...
2020-01-17 11:54:49 139 1
转载 Shell 命令之 tr 的用法
Shell 的 tr 命令tr,translate的简写,即翻译的意思。主要用来从标准输入中通过替换或删除操作进行字符转换。只接受标准输入,不接受文件参数。命令语法: tr [–c/d/s/t] [SET1] [SET2]参数解释:复制代码SET1/SET2: 字符集-c: complement,用SET2替换SET1中没有包含的字符-d: delete,删除SET1中所有的字符...
2020-01-15 10:34:09 442
原创 Flink 和 Spark Streaming 的对比
Spark Streaming数据模型Dstream,其实是一个RDD集合,批处理。运行时,根据DAG划分Stage,生成taskSet,根据资源调度task。角色Master和Worker。Driver 负责调度Task,Executor负责执行 Task。支持处理时间,Structrued Streaming 支持处理事件时间,有watermark,支持处理乱序时间状态的保存使用c...
2020-01-12 14:33:56 400
原创 Flink 笔录
Flink一、Flink 简介 Apache Flink是一个 框架 和 分布式处理引擎,用于对 无界 和 有界 数据流进行 有状态计算。1.1 Flink 的特点事件驱动型(event-driven)事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算、状态更新或其他外部动作。比较典型的就是以 kafka 为代表的消息队列几乎都是事件驱动型应...
2020-01-12 14:30:35 608
原创 Spark 性能优化和故障处理
Spark 性能优化和故障处理一、Spark 性能优化1.1 常规性能优化生产环境 Spark submit 脚本/usr/local/spark/bin/spark-submit \--class com.atguigu.spark.WordCount \--num-executors 80 \--driver-memory 6g \--executor-memory 6g \...
2020-01-12 14:14:39 435
原创 Spark Kernel
Spark Kernel一、Spark 内核概述1.1 核心组件Cluster Manager(Master) 主要负责对整个集群资源的分配与管理,在 Yarn 部署模式下为 ResourceManager,在 Mesos 部署模式下为 Mesos Master,在 Standalone 部署模式下为 Master。Cluster Manager 分配的资源属于一级分配,它将各个 W...
2020-01-12 14:12:39 290
原创 Spark 笔录
Spark一、Spark 概述Spark(http://spark.apache.org/history.html) 是一个快速(基于内存), 通用, 可扩展的集群 计算引擎Spark 特点:快速(Spark 基于内存运算,MapReduce 的100 倍) 易用(支持 Scala、Java、Python、R 和 SQL脚本,Scala 和 Python 的 Shell 交互,8...
2020-01-12 14:04:50 673
原创 Sqoop 笔录
Sqoop一、Sqoop 原理将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制。二、Sqoop 安装安装 Sqoop 的前提是已经具备 Java 和 Hadoop 的环境。3.1 下载并解压下载地址:http://mirrors.hust.edu.cn/apache/...
2020-01-12 13:50:11 81
原创 HBase 笔录
HBase一、HBase 简介1.1 HBase 定义HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。1.2 HBase 数据模型HBase 的底层物理存储结构为 K-V 键值对,但是这个 Key 是多维的,HBase 更像是一个 multi-dimensional map。① 逻辑结构② 物理存储结构③ 数据模型1)Name Space:命名空间,...
2020-01-12 13:48:52 287
原创 Kafka 笔录
Kafka一、Kafka 概述1.1 消息队列 1)点对点模式:一对一,消费者主动拉取数据,消息收到后回复收到确认,队列中消息被清除。 2)订阅/发布模式:一对多,数据生产后,推送给所有订阅者,消息会在指定时间后自动清除。 Kafka 是基于发布订阅模式的。1.2 消息队列的作用 1)解耦:允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 2...
2020-01-12 13:35:19 171
原创 Flume
Flume一、Flume 概述1.1 Flume 定义 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。 Flume 最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到 HDFS。1.2 Flume 基础架构AgentAgent 是一个 JVM 进程,它以事件的形式将数...
2020-01-12 13:29:16 468
原创 Shell 笔录
Shell一、概述 Shell 是一个 命令行解释器,它接收应用程序/用户名,然后调用操作系统。 Shell 是一个功能相当强大的编程语言,易编写,易调试,灵活性强。二、Shell 解析器 Linux 提供的 Shell 解析器有 6 种,其中 sh 和 bash 最为常用。[atguigu@hadoop101 ~]$ cat /etc/shells /bin/sh/b...
2020-01-12 13:03:09 203
原创 JUC 多线程
JUC 在Java 5.0 提供了 java.util.concurrent (简称 JUC )包,在此包中增加了在并发编程中很常用的实用工具类,用于定义类似于线程的自定义子系统,包括线程池、异步 IO 和轻量级任务框架。提供可调的、灵活的线程池。还提供了设计用于多线程上下文中的 Collection 实现等。一、多线程回顾线程和进程 程序是完成特定任务、用某种语言编写的一段代码,...
2020-01-12 13:01:50 243
原创 Git 常用命令
Git 常用命令提交命令作用git status查看本地库的状态git add [file]将文件添加到暂存区git commit –m “xxx” [file]将暂存区的文件提交到本地库,-m 后面为修改的说明版本切换命令作用git log以完整格式查看本地库状态git log --pretty=oneline以单行...
2020-01-12 12:57:28 67
原创 Redis
Redis一、Redis 安装 ① 将 Redis 的 tar 包上传到 /opt/software 目录下,并解压到 /opt/module 下 ② 安装 gcc 环境 redis是C语言编写的!要有gcc-c++ 环境 yum install –y gcc-c++ 查看安装是否成功:rpm –qa|grep gcc ③ 查看 make 是否安...
2020-01-12 12:54:51 75
原创 Linux 笔录
Linux安装设置安装 vmware tools ,帮助我们使用拖拽的方式从 windows 桌面和 Linux 虚拟机传输文件,并共享剪切板。设置网络连接: ① 仅主机模式: 虚拟机不能和外网通信。 ② 桥接模式: 虚拟机和物理机都分配一个可以上网的ip,各自使用各自的网卡联网,同一个网段的机器可以相互连通。 ③ NAT模式:(推荐使用) 虚拟机...
2020-01-12 12:49:56 190
原创 JavaWeb 总结
一、JavaWeb 的技术体系Javaweb负责使用Java语言,开发服务器端程序的技术。Javaweb开发的程序,一般都采用B/S架构。浏览器端: html: 负责构建静态页面。特点由标签组成,需要什么功能就使用什么标签。 css : 负责页面样式。 javascript: 负责将静态页面变为动态页面,负责和用户进行交互。 jquery: j...
2020-01-12 12:43:14 624
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人