大数据阶段
文章平均质量分 94
落落free
这个作者很懒,什么都没留下…
展开
-
Linux:1.安装VMware步骤
安装虚拟机软件VMWare这里VMWare12版本为例安装下载好的虚拟机软件如果正常安装不成功,就进入Bios中设置Virtualization -> 【Enable】激活VMware输入激活码 : 5A02H-AU243-TZJ49-GTC7K-3C61N...原创 2019-11-28 15:05:45 · 293 阅读 · 0 评论 -
Spark Streaming之:二、基本输入源
Spark系列之:Spark Streaming基本输入源文章目录Spark系列之:Spark Streaming基本输入源一、文本文件输入源(数据实时采集)1. 基本步骤2. Spark-shell操作3. IDEA程序4. spark提交流计算任务二、socket输入源1.使用套接字流作为数据源2.编写程序3.打包上传执行三、队列流输入源一、文本文件输入源(数据实时采集)1. 基本步...原创 2019-05-23 20:12:05 · 2006 阅读 · 0 评论 -
Spark Core:第五章 共享变量
Spark Core:第七章 共享变量文章目录Spark Core:第七章 共享变量一、广播变量二、累加器三、知识点补充1. PV&UV2. 面试简答3. 端口总结—>Spark知识点总结导航<—一、广播变量1. 当Executor端使用到了Driver的变量 (1) 不使用广播变量,Executor中有多少task就有多少变量副本 (2) 使用广播变...原创 2019-05-26 21:12:08 · 210 阅读 · 0 评论 -
Spark Core:第四章 RDD
Spark Core:第六章 RDD文章目录Spark Core:第六章 RDD一、RDD简介1. RDD是spark的核心2. RDD基本原理3. RDD特性4. RDD的宽窄依赖二、RDD的创建1. 从文件创建2. 通过集合创建3. 从其他RDD转化(转换算子)4. 创建指定分区的RDD5. 键值对RDD三、RDD五大特性四、RDD的基本问题1.K,V格式的RDD是什么?2.sc.text...原创 2019-05-26 21:00:42 · 1015 阅读 · 0 评论 -
Spark Core:第三章 spark shuffle
Spark Core:第五章 spark shuffle文章目录Spark Core:第五章 spark shuffle一、HashShuffle1. 普通机制2. 合并机制二、SortShuffle1. 普通机制2. bypass机制三、Shuffle 文件寻址1. 对象2. 过程四、Spark 内存管理1. 静态内存管理2. 统一内存管理五、Spark Shuffle调优—>S...原创 2019-05-26 19:30:33 · 216 阅读 · 0 评论 -
Spark Core:第一章 Spark Shell
Spark Core:第四章 spark shell文章目录Spark Core:第四章 spark shell一、关于spark-shell二、启动spark-shell三、spark-shell中编写WordCount程序1. 启动HDFS2. 上传文件到HDFS3. spark-shell中编写程序4. hdfs命令查看结果四、IDEA中编写WordCount程序1. 配置maven配置...原创 2019-05-26 19:08:16 · 590 阅读 · 0 评论 -
Spark Core:第二章 spark集群遇到的问题解决
spark集群遇到的问题解决文章目录spark集群遇到的问题解决Q1:Standalone模式提交任务Q2:YARN模式提交任务Q3:Yarn application has already ended!Q4:执行Yarn模式Q5:webui端的alive worker节点显示为0Q1:Standalone模式提交任务错误描述:19/05/01 05:34:01 ERROR Spa...原创 2019-05-02 18:49:03 · 938 阅读 · 0 评论 -
Spark Core:第二章 执行spark程序
Spark集群执行程序:计算圆周率文章目录Spark集群执行程序:计算圆周率一、Standalone模式1. Standalone-client 模式提交任务2. Standalone-cluster 模式提交任务3. Standalone-client 模式与Standalone-cluster 模式的对比二、Yarn模式1. Yarn-client 模式提交任务2. Yarn-cluste...原创 2019-05-02 15:44:50 · 712 阅读 · 0 评论 -
Spark基础:第一章 spark概述
Spark Core:第一章 spark概述文章目录Spark Core:第一章 spark概述一、spark是什么?二、为什么用spark?1. 特点2. MapReduce 与 Spark 对比三、spark生态系统1. 原理2. 组件四、spark中的基本概念五、spark架构设计一、spark是什么?基于内存计算的大数据并行计算框架背景(1) 于2009年开发,可用于构建大...原创 2019-05-24 21:01:50 · 767 阅读 · 0 评论 -
Spark知识点总结导航
Spark知识点总结导航文章目录Spark知识点总结导航- Spark Core第一章 Spark概述- Spark SQL- Spark Streaming- Kafka- Flume- Spark Core第一章 Spark概述- Spark SQL- Spark Streaming- Kafka- Flume...原创 2019-05-24 20:42:40 · 699 阅读 · 0 评论 -
Kafka之四:Kafka与Streaming集成
Kafka之四:Kafka与Streaming集成文章目录Kafka之四:Kafka与Streaming集成1. 修改IEDA的maven配置2. 程序一3. 程序二:统计次数4. 提交任务可能遇到的错误spark官网Kafka作为spark Streaming的一种输入源,当Kafka和Streaming集成时充当消费者角色。(请了解Kafka命令操作)1. 修改IEDA的ma...原创 2019-05-21 12:57:28 · 780 阅读 · 0 评论 -
Kafka之一:Kafka简述
Kafka之:Kafka简述文章目录Kafka之:Kafka简述一、消息队列1. 消息队列简述2. 消息队列的特点二、Kafka简述1. 什么是Kafka2. Kafka的基本概念3. Kafka的partitions设计目的4. Kafka的Message5. Kafka设计原理实现6. Kafka的存储策略三、Kafka架构1. Kafka系统架构2. Kafka部署架构3. Kafka集...原创 2019-05-17 19:49:06 · 1277 阅读 · 0 评论 -
Kafka之二:Kafka集群的安装
Kafka之:Kafka集群的安装文章目录一、Kafka集群的安装二、Kafka命令行操作一、Kafka集群的安装1.解压、删除、重命名2.在kafka文件下建一个文件夹logsmkdir logs3.修改配置文件vim server.properties 参数解读:(修改***部分) *** #broker的全局唯一编号,不能重复 broke...原创 2019-05-17 20:38:06 · 480 阅读 · 0 评论 -
hive多窗口遇到java.sql.SQLException 异常
hive多窗口遇到java.sql.SQLException 异常多打开一个客户端窗口启动 hive,会产生 java.sql.SQLException 异常文章目录hive多窗口遇到java.sql.SQLException 异常Exception in thread “main” java.lang.RuntimeException: java.lang.RuntimeExcep...原创 2019-06-24 19:43:29 · 642 阅读 · 0 评论 -
URISyntaxException
Exception in thread “main” java.net.URISyntaxException: Illegal character in opaque part at index 2: D:\BaiduNetdiskDownload\input\out1文章目录Exception in thread "main" java.net.URISyntaxException: Ill...原创 2019-06-17 16:26:53 · 5327 阅读 · 0 评论 -
Python小项目:爬虫
Python小项目:爬虫文章目录Python小项目:爬虫一、环境搭建二、离线安装selenium三、配置webdriver四、练习一、环境搭建浏览器:FireFox_v66.0.5_x64.zip(火狐浏览器) 提取码:2zk0三方库selenium:selenium-3.141.0.tar.gz 提取码:anq9与浏览器版本对应的webdriver:geckodri...原创 2019-06-11 18:48:28 · 653 阅读 · 0 评论 -
Python基础入门(3)
Python基础入门(3)文章目录Python基础入门(3)1. 迭代器2. 判断数据对象类型3. 异常4. Python文件的读写5. 数据操作1. 迭代器(1) 判断一个数据是否可以迭代(2) 使用一定方法执行迭代操作2. 判断数据对象类型isinstance() 函数判断是否可以迭代3. 异常try: 代码一except 异常类型: 代...原创 2019-06-11 16:58:09 · 293 阅读 · 0 评论 -
Python基础入门(2)
Python基础入门(2)文章目录Python基础入门(2)一、字符串的操作1. 截取2. 索引二、循环语句(遍历)1. while循环2. for循环三、运算符1. 赋值运算符2. 比较运算符3. 成员运算符四、if判断语句五、类型的强制转换练习:六、列表1. 定义2. 常用方法3. 列表内置方法七、元组八、字典九、函数一、字符串的操作print(myStr[0])print(myS...原创 2019-06-11 16:53:38 · 439 阅读 · 0 评论 -
Python基础入门(1)
Python基础入门(1)文章目录Python基础入门(1)1. 注释2. 变量及数据类型3. 标识符和关键字4. 函数5. Python文件的读写python解释器:Anaconda3-5.2.0-Windows-x86_64.exePython IDE:pycharm-professional-2017.2.3.exepython语言是一种解释型语言(不需要编译,可以直接执行)...原创 2019-06-06 20:57:34 · 170 阅读 · 0 评论 -
Flume之:二、企业开发案例
Flume之:二、企业开发案例文章目录Flume之:二、企业开发案例三、企业开发案例1. 监控端口数据官方案例2. 实时读取本地文件到HDFS案例3. 实时读取目录文件到HDFS案例4. flume监控Kafka—>Spark知识点总结导航<—三、企业开发案例1. 监控端口数据官方案例(1) 案例需求:首先,Flume监控本机44444端口,然后通过telnet工具向本...原创 2019-05-31 19:48:15 · 360 阅读 · 0 评论 -
Spark Streaming之:三、DStream转换
Spark Streaming之:三、DStream转换文章目录Spark Streaming之:三、DStream转换1. DStream转换2. DStream转换操作状态—>Spark知识点总结导航<—1. DStream转换a. 是Spark streaming数据的表现形式b. DStream上的原语分为Transformation(转换)和output op...原创 2019-05-31 19:17:04 · 1597 阅读 · 0 评论 -
Flume之:一、概述及安装部署
Flume概述及安装部署文章目录Flume概述及安装部署一、概述1. Flume定义2. flume的组成架构3. Flume拓扑结构4. Flume Agent内部原理二、Flume的安装1. Flume安装地址2. 安装部署Q:Error: Could not find or load main class org.apache.flume.tools.GetJavaProperty...原创 2019-05-23 20:50:29 · 443 阅读 · 0 评论 -
Kafka之三:Kafka集群工作流程
Kafka之三:Kafka集群工作流程文章目录Kafka之三:Kafka集群工作流程一、工作流程分析1. producer写入流程2. 分区(Partition)3. 副本(Replication)4. Broker 保存消息5. Zookeeper存储结构二、Kafka消费过程分析1. 高级API2. 低级API3. 消费组4. 消费方式5. 消费者组案例一、工作流程分析1. prod...原创 2019-05-21 12:40:01 · 2077 阅读 · 0 评论 -
Spark SQL之:概述及操作应用
Spark系列之:Spark SQL(2)文章目录Spark系列之:Spark SQL(2)四、RDD转换为DataFrame1. 利用反射机制解析RDD2. 使用编程方式定义RDD模式五、使用Spark SQL读写数据库(MySQL)六、使用spark sql写入MySQL数据库七、通过spark sql将数据写入hive四、RDD转换为DataFrame1. 利用反射机制解析RDD...原创 2019-05-10 15:28:00 · 403 阅读 · 0 评论 -
Linux:Zookeeper知识点笔记
Linux:Zookeeper知识点笔记文章目录Linux:Zookeeper知识点笔记1.Zookeeper工作机制2.特点:3.zookeeper数据结构4.Zookeeper提供的服务5.选举机制(面试重点)6.zookeeper节点类型7.zookeeper写数据流程8.监听器原理(面试重点) Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项...原创 2019-03-26 18:44:20 · 436 阅读 · 0 评论 -
Linux端安装HBase
Linux端安装HBase文章目录Linux端安装HBase1. 安装压缩包2. 配置环境变量本地模式:配置修改伪分布式:配置修改完全分布式1. 安装压缩包1.解压、删除、重命名2. 配置环境变量2.hbase环境变量:(1)配置hbase环境变量:(/etc/profile)export HBASE_HOME=/home/dog/software/hbaseexport...原创 2019-03-29 14:53:18 · 1541 阅读 · 0 评论 -
克隆虚拟机及修改主机名的操作
克隆虚拟机及修改主机名的操作文章目录克隆虚拟机及修改主机名的操作1.克隆虚拟机2.修改相关配置3.修改主机名1.克隆虚拟机--------->启动虚拟机。。。2.修改相关配置1)先ifconfig查看cd /etc/udev/rules.d/ vim 70-persistent-net.ruleseth0删掉,eth1改成0,复制物...原创 2019-03-06 10:55:10 · 7073 阅读 · 0 评论 -
SSH免密登录原理及步骤
SSH免密登录原理及步骤文章目录SSH免密登录原理及步骤1.什么是SSH?2.SSH的两种认证方式3.SSH背景4.SSH(Secure Shell)最基本的用法:5.SSH密钥登录原理6.密钥登录的操作步骤1.什么是SSH?简单说,SSH是一种网络协议,用于计算机之间的加密登录。• 如果一个用户从本地计算机,使用SSH协议登录另一台远程计算机,就可以认为,这种登录是安全的,即使被中途...原创 2019-03-05 19:21:35 · 4829 阅读 · 2 评论 -
集群三部曲:全分布模式
集群三部曲:全分布模式文章目录集群三部曲:全分布模式1.免密登录三台机器SSH(Secure Shell)2.搭建过程:3.集群启动及测试Cloud01Cloud02Cloud03*!准备三台干净的机器Cloud01、Cloud02、Cloud03 ,并且做好准备工作(请参考集群三部曲之准备工作)。~单机模式~伪分布模式1.免密登录三台机器SSH(Secure Shell)(请查看...原创 2019-04-13 14:16:34 · 1485 阅读 · 1 评论 -
集群三部曲:伪分布模式
集群三部曲:伪分布模式请先做好准备工作:参看文章集群三部曲之准备工作文章目录集群三部曲:伪分布模式1.伪分布式配置2.启动集群3.查看集群1.伪分布式配置1)配置:hadoop-env.sh(/home/hyn/software/hadoop/etc/hadoop)Linux系统中获取jdk的安装路径,然后修改文件:2)配置:core-site.xml(需要在hadoop文件夹下...原创 2019-03-05 15:55:24 · 873 阅读 · 0 评论 -
集群三部曲:单机模式
单机模式:运行wordcount单机模式是最简单的一种集群模式,但是配置单机模式之前一定要先做好准备工作,否则无法完成(请参看文章集群三部曲之准备工作)1)创建在hadoop文件下面创建一个wcinput文件夹mkdir wcinput2)在wcinput文件下创建一个wc.input文件cd wcinputtouch wc.input3)编辑wc.input文件vim w...原创 2019-03-05 15:33:30 · 421 阅读 · 0 评论 -
集群三部曲之准备工作:Linux端安装jdk和Hadoop
集群三部曲之准备工作1.使用root用户设置hyn用户(自己的用户名)具有root权限:修改 /etc/sudoers 文件,找到下面一行,在root下面添加一行,如下所示:## Allow root to run any commands anywhereroot ALL=(ALL) ALLhyn ALL=(ALL) ALL修改完毕,现在可以用hyn帐...原创 2019-03-05 15:20:47 · 897 阅读 · 10 评论 -
大数据入门:Hadoop安装、环境配置及检测
文章目录1.导包Hadoop包2.配置环境变量3.把winutil包拷贝到Hadoop bin目录下4.把Hadoop.dll放到system32下5.检测Hadoop是否正常安装5.1在maven项目中检测,将配置文件放入resource包下5.2然后通过一个简单的wordcount程序检测Hadoop是否安装成功5.3保存好之后,写程序:5.4最后我们打开输出文件查看:6.容易出现的错误:6...原创 2019-04-10 22:57:16 · 1206 阅读 · 0 评论 -
Linux:HBase知识点笔记
Linux:HBase知识点笔记文章目录Linux:HBase知识点笔记1.HBase是什么?2.hbase的特点3.数据模型4.HBase组件功能5.表和Region(一个表对应一个Region)6.HBase系统架构7.HBase服务器工作原理8.Store工作原理1.HBase是什么? Hadoop database,是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌Bi...原创 2019-03-26 18:55:27 · 564 阅读 · 0 评论 -
Linux端安装MySQL及其配置
Linux端安装MySQL及其配置文章目录Linux端安装MySQL及其配置安装前的准备工作:一、下载安装MySQL二、配置MySQL三、修改Mysql服务端的编码方式四、测试五、配置Mysql服务远程可访问导航:—>Linux端安装jdk—>Linux端安装Hadoop—>搭建集群—>克隆虚拟机及修改主机名的操作安装前的准备工作:1.查看系统之前...原创 2019-03-23 19:46:34 · 4577 阅读 · 1 评论 -
Linux端安装hive及其配置
Linux端安装hive文章目录Linux端安装hive前提:参考文章:一、安装二、配置管理三、为Hive创建HDFS目录四、运行前提:在安装Hive之前,要求先:(或者更高版本的都可以)安装JDK 7安装Hadoop-2.2.0安装MySQL 5.6.x关闭防火墙,然后启动集群/各个节点参考文章:集群三部曲之准备工作:Linux端安装jdk和Hadoop集群三部曲...原创 2019-04-10 22:57:38 · 4674 阅读 · 2 评论 -
大数据入门:WordCount程序解析
大数据入门:WordCount程序解析文章目录大数据入门:WordCount程序解析一、输入二、程序解析三、输出四、需要注意的地方为一个顽固的家伙写的,都要考试了还不让我给详细讲一下,我就想白眼死你!!!一、输入输入源可以是一个文件,也可以是包含多个文件的文件夹。具体的只需要在程序的文件输入路径中指定就可以。这里以一个txt文件为例:二、程序解析(1)我们需要了解MapRed...原创 2019-05-14 10:59:21 · 2597 阅读 · 0 评论 -
Spark Streaming之:一、概述介绍
Spark系列之:Spark Streaming(1)文章目录Spark系列之:Spark Streaming(1)一、流计算简介1. 流数据的特征2. 流计算3. 流计算框架4. 流计算的处理流程二、Spark Streaming1. Spark Streaming的设计2. Spark Streaming与Storm的对比3. 从“Hadoop+Storm”架构转向Spark架构4. Sp...原创 2019-05-13 18:06:19 · 491 阅读 · 0 评论 -
Spark基础:第二章 spark集群安装
第1章Spark集群安装文章目录第1章Spark集群安装1.1集群角色1.2机器准备1.3下载Spark安装包1.解压安装包到指定位置2.重命名(mv)3.删除原压缩包1.4配置Spark1.将slaves.template复制为slaves2.将spark-env.sh.template复制为spark-env.sh3.将配置好的Spark文件拷贝到其他节点上4.Spark集群配置完毕5.查...原创 2019-04-27 11:00:28 · 814 阅读 · 0 评论 -
Scala入门Part1:基础部分
文章目录一、Scala简介二、Scala安装1.Windows上安装Scala(一)设置SCALA_HOME变量(二)设置Path变量(三)设置classpath变量(四)检查环境变量2.Linux上安装Scala三、Scala基础1.基本语法2.标识符3.数据类型4.变量和常量(一)变量和常量的区别(二)变量和常量的声明(三)Scala多个变量声明5.运算符6.类和对象四、控制语句1.选择控制...原创 2019-04-13 14:52:37 · 250 阅读 · 0 评论