自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 如何手动搭建Hadoop-HA(高可用)模式?(内含报错和解决方法)

如何搭建Hadoop-HA(高可用)模式?前置条件集群架构设计修改配置文件第一步第二步第三步分发配置文件格式化第一步第二步第三步启动集群启动zookeeper启动JournalNode启动备用节点上的RMzkfc未启动的情况(可选)启动JobHistory前置条件我们需要一个Hadoop集群(至少三台虚拟机),并且配置好zookeeper。如果这两个要求还没有做到或者有疑问,请移步到我的另外两篇博文,都有详细教程:Hadoop的安装、配置、初步使用!(附加集群)于Hadoop集群上进行的zookee

2020-09-08 17:39:11 1478

原创 (小白学JAVA之)Java高级特性知识点梳理

Java高级特性知识点梳理集合框架和泛型List接口ArrayListArrayList类的常用方法具体实现步骤LinkedListLinkedList类的常用方法具体实现步骤Set接口HashSetHashSet类的常用方法具体实现步骤Iterator接口Map接口Map接口的常用用法HashMap实现步骤遍历HashMap集合Collections类Collections类常用方法Comparable接口替换集合元素集合框架和泛型用数组存储多个同类型的数据,会存在如下一些明显的缺陷:数组长度固定

2020-08-24 20:12:31 929

原创 面向对象知识点全方位梳理

面向对象知识点整理归纳面向对象的基本概念定义类创建和使用对象对象数组方法方法的返回值方法的调用带参数的方法方法传参方法重载构造方法构造方法重载类方法面向对象的基本概念1.面向对象Java是一种面向对象的语言,比较符合人类认识现实世界的思维方式。它的基本思想是把问题看成是由若干个对象组成,对象间相互独立,但又可以相互配合、连接和协调。具有系统结构较稳定、子系统相对独立、软件可重用性、可维护性和可扩展性强的特点。面向对象的三大特征:封装、继承和多态。2.对象对象是用来描述客观事物的一个实体对象

2020-08-05 11:02:33 722

原创 【Python】Python环境搭建及Python数据类型

Python环境搭建及Python数据类型Python环境搭建安装AnacondaTurtle DemoJupyter NoteBook扩展功能(代码提示)Python环境搭建安装AnacondaTurtle DemoJupyter NoteBook使用 Anaconda 安装 Python 自带 Jupyter NoteBook,在这里可以启动。默认启动创建路径是在命令输入的目录。但可以修改默认路径。Jupyter NoteBook 修改默认路径方式:找到Jupyter NoteBook的快

2021-01-26 17:17:36 372

原创 【考试真题】2020年7月份机试试卷

2020年7月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备(10 分)2.3.创建 HBase 数据表(10 分)4.5.6.一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述这是一份来自于某在线考试系统的学员答题批改日志,日志中记录了日志生成时间,题目难度系

2021-01-22 17:26:33 641 1

原创 【考试真题】2020年9月份机试试卷

2020年9月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备(10 分)2.使用 Spark一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU(Standard Product Unit,标准产品单元)数据,包含了外卖平台某地区一时

2021-01-22 17:05:47 546 1

原创 【考试真题】2020年10月份机试试卷

2020年10月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备(10 分)2.数据清洗(40 分)3.用户行为分析(20 分)4.找出有价值的用户(30 分)一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11 至

2021-01-21 22:52:42 405

原创 【考试真题】2020年11月份机试试卷

2020年11月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.2.3.4.5.一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句,如不提交则不得分。2.带有分析结果的功能,请分析结果的截图与代码一同提交。三、数据描述countrydata.csv 是世界新冠疫情数,数据中记录了从疫情开始至 7 月 2 日,以国家为单位的每日新冠疫情感染人数的数据统计。字

2021-01-21 16:41:27 370

原创 【Kafka】KafkaStream实例之二

KafkaStream实例之二LinuxFlumeKafkaJava APILinuxFlumeuserfriend-flume-kakfa.confuser_friend.sources=userFriendSourceuser_friend.channels=userFriendChanneluser_friend.sinks=userFriendSinkuser_friend.sources.userFriendSource.type=spooldiruser_friend.sour

2020-12-16 19:19:34 152

原创 【Kafka】使用Java连接Kafka并上传/读取数据

使用Java连接Kafka并上传/读取数据ProducerConsumerProducerimport org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serializ

2020-12-07 20:06:21 1518

原创 在linux系统上配置并运行kafka

在linux系统上配置并运行kafka前提条件解压并安装启动kafka简易使用Kafka查看topics创建topicstopics详情删除topics交互界面前提条件一台搭建好包括但不限于jdk hadoop zookeeper等环境的虚拟机解压并安装tar -zxvf kafka_2.11-2.0.0.tgz -C /opt/mv kafka_2.11-2.0.0/ kafka修改/etc/profile,记得sourceexport KAFKA_HOME=/opt/kafkaexpo

2020-12-02 19:11:46 275

原创 【SPARK】知识点全讲解

SPARK知识点全讲解Spark环境部署Spark简介诞生与发展为什么使用SparkSpark优势Spark技术栈Spark架构设计Spark架构核心组件Spark交互工具Spark APISparkContextSparkSessionRDDDataSetDateFrameSpark环境部署前置条件:完成Scala环境部署可以参考我的博客:Scala环境部署和简单介绍然后我们在vmware虚拟机上配置Scala和Spark并初步使用Spark简介诞生与发展诞生于加州大学伯克利分校AMP实

2020-11-25 11:43:57 7937 3

原创 【Spark项目实战】使用spark分析日志文件(json格式)

使用spark分析日志文件准备阶段导包整合格式转入DataFrame分解第一层json列分解cm列分解et列分解kv列loadingadnotificationactive_backgroundcommentpraise准备阶段启动好spark-shell的虚拟机一份op.log文件,如下图所示:导包import spark.implicits._import org.apache.spark.sql.functions._import org.apache.spark.sql.types.

2020-11-20 12:16:05 1003

原创 【spark】算子:distinct union intersection subtract cartesian mapToPair flatMapToPair

算子:distinct union intersection subtract cartesian mapToPair flatMapToPairdistinct union intersection subtract cartesianjava版本scala版本mapToPair flatMapToPairmapToPaitdistinct union intersection subtract cartesianjava版本public class rddJava1 { public stati

2020-11-05 18:57:56 141

原创 【spark】算子:WordCount Rdd Map ActionRdd

算子:WordCount Rdd Map ActionRddWordCountMapRddActionRddJava版本filterparallelizeWordCountimport org.apache.spark.rdd.RDDimport org.apache.spark.{Partition, SparkConf, SparkContext}object wordcount { def main(args: Array[String]): Unit = { System.se

2020-11-04 20:01:30 206

原创 【Spark】初入门——使用IDEA实现WordCount

使用IDEA实现WordCount准备阶段主体代码块log4j日志文件修改准备阶段创建maven项目pom.xml需要修改和添加的部分:<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compile

2020-11-03 20:12:30 462

原创 在vmware虚拟机上配置Scala和Spark并初步使用

在虚拟机上配置Scala和Spark准备阶段安装包配置文件scala部分spark部分spark初体验准备阶段一台配置好Java环境的虚拟机scala-2.11.12.tgzspark-2.4.5-bin-hadoop2.6.tgz安装包将scala和spark的安装包导入虚拟机解压,移动到opt目录下(或自定义),并改名tar -zxvf scala-2.11.12.tgz -C /opt/tar -zxvf spark-2.4.5-bin-hadoop2.6.tgz -C /opt/

2020-10-30 14:57:34 3331

原创 Scala面向对象——随堂笔记

Scala OOP类类成员访问修饰符类的定义类的继承抽象类单例对象定义单例对象伴生特质混入特质 mixin动态混入特质特质与抽象类的选择内部类样例类类类通过class关键字定义类通过new关键字创建实例类拥有成员变量和方法类的成员默认为public,也支持private、protected类中无法定义静态成员变量和方法类无需明确定义构造方法,通过构造参数列表声明为类的一部分类成员访问修饰符类的定义构造器:主构造器,辅助构造器成员的变量和方法//主构造器执行类定义中的所有语句

2020-10-23 16:50:50 132

原创 Scala之数组Array的方法全面总结(含实例操作)

Scala Array的方法一些基本操作添加合并数值操作查询比较一些基本操作val numbers = Array(1, 2, 3, 4) //声明一个数组对象val first = numbers(0) // 读取第一个元素numbers(3) = 100 // 替换第四个元素为100val biggerNumbers = numbers.map(_*2) // 所有元素乘以2添加合并++val a = Array(1,2)val b = Array(3,4)val c = a ++

2020-10-22 19:19:05 5239

原创 Scala函数-随堂笔记(持续更新)

Scala函数Java LambdaScala函数定义函数调用参数传递命名参数参数缺省值参数个数未知匿名函数函数作参数函数作返回值课堂小测Java Lambda函数式接口:一种只含有一个抽象方法声明的接口可以使用匿名内部类实例化函数式接口的对象通过Lambda表达式可以进一步简化代码Lambda语法:(parameters) -> expression(parameters) -> { statements; }Scala函数定义def 函数名([参数列表]):[返回值

2020-10-20 14:30:58 197

原创 Scala入门-随堂笔记

这里写目录标题Scala简介Scala初体验安装及配置Scala验证scala安装插件HelloWorld实例Scala概述Scala变量与常量变量常量使用类型别名定义变量Scala数据类型原始数据类型数据类型层次结构字符串插值Scala条件控制条件语句的返回值Scala循环控制whilefor循环中断for循环过滤for循环返回值Scala数组Scala之Array的方法Scala简介Scala源自JavaScala构建在JVM之上Scala与Java兼容、互通Scala的优势多范式编程:面

2020-10-19 16:02:29 527

原创 数据仓库理论介绍(随堂笔记)(持续更新)

数据仓库理论介绍为什么学习数据仓库什么是数据仓库面向主题实例集成非易失随时间变化为什么学习数据仓库数据不兼容,很难被整合战略决策需要数据的分析推荐系统什么是数据仓库数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合面向主题主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念每一个主题基本对应一个宏观的分析领域在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象例如“销售分析”就是一个分析领域,因此这个数据仓库应用的

2020-10-08 15:20:34 589 1

原创 大数据全知识点讲解之HBASE

大数据全知识点讲解之HBASE(上)NOSQLNOSQL三大基石索引和查询MapReduce/ShardingNOSQL分类HBASEHBASE应用场景HBASE物理架构HBase数据管理HBase架构特点HBase ShellNOSQLNOSQL的全称是:not only sql,即非关系型数据库。NOSQL是一个通用术语:指不遵循传统RDBMS模型的数据库数据是非关系的,且不使用SQL作为主要查询语言解决数据库的可伸缩性和可用性问题不针对原子性和一致性问题为什么使用NOSQL?因为传

2020-09-24 20:14:38 263

原创 大数据知识点全讲解之Hive(中)

大数据知识点全讲解之Hive(中)Hive查询语法基础语法常用函数Limit语句Where语句分组Join语句Hive查询语法select [ALL | DISTINCT] select_expr, select_expre, ...from table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list]| [DISTRIBUTE BY col_list] [SO

2020-09-22 23:01:44 353

原创 大数据知识点全讲解之Hive(上)

大数据知识点全讲解之HiveHive简介Hive结构Hive与Hadoop的关系Hive安装Hive交互方式Hive数据类型Hive的基本数据类型Hive的复杂数据类型Hive元数据结构Hive和BeelineHive的基本操作数据库操作数据表操作Hive简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能其本质是将SQL转换为MapReduce的任务进行运算,底层是由HDFS来提供数据的存储为什么使用Hive?采用类SQL语法去操作

2020-09-16 19:47:38 255

原创 大数据知识点全讲解之HDFS

大数据知识点全讲解之HDFSHDFS介绍HDFS应用场景HDFS架构ClientNameNodeDataNodeSecondary NameNodeNamenode的作用DataNode的作用HDFS的副本机制HDFS的命令行使用HDFS的高级命令HDFS写入过程HDFS读取过程HDFS的API操作HDFS-HA高可用HDFS介绍HDFS,Hadoop Distributed File System 是Apache Hadoop项目的一个子项目,Hadoop非常适于存储大型数据(比如TB或PB),其就是

2020-09-16 17:12:44 270

原创 大数据全知识点讲解之Mapreduce

大数据全知识点讲解之MapreduceMapreduce介绍Mapreduce设计思想Mapreduce特点实现WordCountMapreduce执行过程Hadoop V1 MR引擎Hadoop V2 YARNMapreduce介绍MapReduce是一个分布式计算框架它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。起源于Google适用于大规模数据处理场景每个节点处理存储在该节点的数据每个job包含Map和Reduce两部分Mapreduce设计思想分而治之简化并行计

2020-09-15 23:43:39 595

原创 大数据知识点全讲解之Hadoop

大数据知识点全讲解之HadoopHadoop介绍Hadoop豆知识为什么使用HadoopHadoop架构Hadoop搭建Hadoop介绍Hadoop是一个开源分布式系统架构狭义上来说,hadoop单独指代hadoop这个软件HDFS:分布式文件系统Mapreduce:分布式计算系统Yarn:分布式样集群资源管理广义上来说,hadoop指代大数据的一个生态圈,包括很多其他的软件zookeeperhbasehive…现在,Hadoop是处理海量数据的架构首选,它可以非常快得完成

2020-09-15 23:00:53 188

原创 大数据知识点全讲解之Zookeeper

大数据知识点全讲解之ZookeeperZookeeper概述Zookeeper特点ZnodeZookeeper数据结构Zookeeper角色Zookeeper应用场景Zookeeper选举Zookeeper搭建Zookeeper的Shell客户端操作操作实例Znode属性Zookeeper的watch机制Zookeeper的JavaAPI操作Zookeeper概述zookeeper是一个开源的分布式协调服务框架,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题Zookeeper由文件系统和通

2020-09-15 20:04:04 204

原创 MySQL经典习题(含面试题,持续更新)

MySQL经典习题(含面试题,持续更新)面试题面试题

2020-09-12 11:16:34 218

原创 Hadoop生态圈概况

Hadoop生态圈概况大数据大数据特征分布式计算HadoopHadoop简介Hadoop的优点Hadoop与关系型数据库对比Hadoop生态圈Hadoop结构HDFSHDFS特点dfsadminHDFS角色HDFS架构HDFS副本HDFS读、写文件大数据什么是大数据?大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据特征大数据的特征可以用4个V来概括:Volume(大数据量):90% 的数据是过去两年产生Velocity(速度快):数据增长速度快,时效性高

2020-09-10 18:53:00 443

原创 于Hadoop集群上进行的zookeeper配置、时间同步

大部分转载自学长的博客:zookeeper的配置和zookeeper集群的时间同步设置zookeeper配置、时间同步

2020-09-06 12:11:27 337

原创 小白学Linux——常用命令与实例(个人专用向)

Linux常用命令echo 命令printenv 命令more 命令less 命令wc命令| 管道命令grep 命令file 命令echo 命令printenv 命令more 命令less 命令wc命令| 管道命令grep 命令file 命令

2020-09-04 22:17:21 326

原创 Hadoop的安装、配置、初步使用!(附加集群)

Hadoop的安装、配置、初步使用准备阶段解压本机配置配置第一步第二步第三步第四步第五步第六步环境变量配置格式化启动访问Hadoop简单测试总结这几天在学习给虚拟机装上hadoop,因为这个过程今后可能将会反复使用,所以开一篇博客专门记录一下整个流程,并汇总其中各种可能会发生的小问题,以及我们应该如何规避。准备阶段一台虚拟机,装有配置好的 jdk 和 mysql,如果对这两个软件安装和配置还有疑问,可以查看我的博客或者在csdn里搜索名为子清的博主的博客所需材料:hadoop-2.6.0-cdh

2020-09-04 17:10:37 282

原创 从零开始!ELK的安装、配置以及集群搭建!

ELK的安装、配置以及集群搭建准备阶段vm虚拟机与配置java需要的安装包Elasticsearch解压ES安装包ES配置写在前面: 这是小白在学习过程中整理的笔记,不仅可以用于备忘疏漏的步骤,也希望抛砖引玉能与大家一起来讨论整个ELK安装到使用过程中遇到的各种状况,一起学习进步!下面就让我们开始吧!准备阶段vm虚拟机与配置javavmware虚拟机安装教程Linux配置java开发环境这两篇是同学写的相关教程,我个人认为十分详细,很实用。如果在虚拟机这里有问题可以参考以上两篇博文。按照博文里

2020-09-04 10:40:08 3754 1

原创 (小白学Linux)Linux Shell编程

Linux Shell编程基础语法Shell变量定义变量使用变量只读、删除Shell传递参数特殊字符Shell数组读取数组获取数组中的所有元素获取数组的长度Shell运算符数值关系运算符逻辑运算符字符串运算符文件运算符Shell testtest结构Shell 流程控制if else-if elsefor循环while循环TMOUT基础语法编写第一个Shell脚本#!/bin/bashecho “Hello World”#! 是一个约定的标记,它告诉系统这个脚本需要什么解释器来执行运行S

2020-08-28 17:06:49 192

原创 (小白学Linux)Linux系统软件安装及项目发布

Linux主机、安装、远程、解压主机名和主机列表进程进程管理远程传输软件安装安装tomcatSVN安装SVNSVN客户端配置步骤主机名和主机列表1.默认的主机名是localhost.localhostdomain2.修改主机名的两种方式:(1)hostnamectl set-hostname 新主机名(2)Vi /etc/hostname 在其中把[主机名]改成[新主机名] (需要重启才能生效)3.主机列表 vi /etc/hosts 在其中加上:主机ip地址 主机名4.ssh 用户名@主机

2020-08-26 17:22:38 215

原创 (小白也要学Linux)Linux入门

初始LinuxLinuxLinux操作系统简介虚拟机虚拟机安装步骤Linux文件系统Linux操作系统结构Linux常用命令目录命令文件命令文件内容命令Vi编辑器用户管理Linux用户/用户组权限管理赋权其他常用命令操作系统分类企业级应用操作系统和普通个人操作系统有什么区别?常用的企业级应用操作系统有哪些?Windows Server、Unix、LinuxLinuxLinux操作系统简介诞生日期:1991年开发者:林纳斯·托瓦茨Linux特点:免费,开源Linux常用发行版本授

2020-08-25 19:28:57 200

原创 小白学MySQL(JDBC)

使用JDBC操作数据库介绍JDBCJDBC访问数据库的步骤介绍JDBCJava数据库连接技术(Java DataBase Connectivity),能实现Java程序对各种数据库的访问由一组使用Java语言编写的类和接口(JDBC API)组成,它们位于java.sql以及javax.sql中JDBC访问数据库的步骤...

2020-08-21 23:16:15 190

原创 小白学MySQL(触发器、视图、函数和存储过程)(上)

触发器 视图 流程控制触发器什么是MySQL的触发器、定义触发器查看触发器新旧记录视图视图的作用视图的创建与使用流程控制语句触发器什么是MySQL的触发器、触发器用来在某些操作时,“自动”执行一些操作。当insert delete update设置触发器之后,执行insert delete update操作就会自动触发设置的内容。注意!定义触发器语法:create trigger 触发器名 before|after 事件 on 表名 for each row 触发器语句;触发器名建议为tr

2020-08-19 18:33:43 152

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除