Helltaker-CSDN博客

原创如何手动搭建Hadoop-HA（高可用）模式？（内含报错和解决方法）

如何搭建Hadoop-HA（高可用）模式？前置条件集群架构设计修改配置文件第一步第二步第三步分发配置文件格式化第一步第二步第三步启动集群启动zookeeper启动JournalNode启动备用节点上的RMzkfc未启动的情况（可选）启动JobHistory前置条件我们需要一个Hadoop集群（至少三台虚拟机），并且配置好zookeeper。如果这两个要求还没有做到或者有疑问，请移步到我的另外两篇博文，都有详细教程：Hadoop的安装、配置、初步使用！（附加集群）于Hadoop集群上进行的zookee

2020-09-08 17:39:11 1624

原创（小白学JAVA之）Java高级特性知识点梳理

Java高级特性知识点梳理集合框架和泛型List接口ArrayListArrayList类的常用方法具体实现步骤LinkedListLinkedList类的常用方法具体实现步骤Set接口HashSetHashSet类的常用方法具体实现步骤Iterator接口Map接口Map接口的常用用法HashMap实现步骤遍历HashMap集合Collections类Collections类常用方法Comparable接口替换集合元素集合框架和泛型用数组存储多个同类型的数据，会存在如下一些明显的缺陷：数组长度固定

2020-08-24 20:12:31 1222 1

原创面向对象知识点全方位梳理

面向对象知识点整理归纳面向对象的基本概念定义类创建和使用对象对象数组方法方法的返回值方法的调用带参数的方法方法传参方法重载构造方法构造方法重载类方法面向对象的基本概念1.面向对象Java是一种面向对象的语言，比较符合人类认识现实世界的思维方式。它的基本思想是把问题看成是由若干个对象组成，对象间相互独立，但又可以相互配合、连接和协调。具有系统结构较稳定、子系统相对独立、软件可重用性、可维护性和可扩展性强的特点。面向对象的三大特征：封装、继承和多态。2.对象对象是用来描述客观事物的一个实体对象

2020-08-05 11:02:33 824

原创【Python】Python环境搭建及Python数据类型

Python环境搭建及Python数据类型Python环境搭建安装AnacondaTurtle DemoJupyter NoteBook扩展功能(代码提示)Python环境搭建安装AnacondaTurtle DemoJupyter NoteBook使用 Anaconda 安装 Python 自带 Jupyter NoteBook，在这里可以启动。默认启动创建路径是在命令输入的目录。但可以修改默认路径。Jupyter NoteBook 修改默认路径方式：找到Jupyter NoteBook的快

2021-01-26 17:17:36 523

原创【考试真题】2020年7月份机试试卷

2020年7月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备（10 分）2.3.创建 HBase 数据表（10 分）4.5.6.一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句，如不提交则不得分。2.带有分析结果的功能，请分析结果的截图与代码一同提交。三、数据描述这是一份来自于某在线考试系统的学员答题批改日志，日志中记录了日志生成时间，题目难度系

2021-01-22 17:26:33 766 1

原创【考试真题】2020年9月份机试试卷

2020年9月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备（10 分）2.使用 Spark一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句，如不提交则不得分。2.带有分析结果的功能，请分析结果的截图与代码一同提交。三、数据描述meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU（Standard Product Unit，标准产品单元）数据，包含了外卖平台某地区一时

2021-01-22 17:05:47 692 1

原创【考试真题】2020年10月份机试试卷

2020年10月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.数据准备（10 分）2.数据清洗（40 分）3.用户行为分析（20 分）4.找出有价值的用户（30 分）一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句，如不提交则不得分。2.带有分析结果的功能，请分析结果的截图与代码一同提交。三、数据描述UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11 至

2021-01-21 22:52:42 501

原创【考试真题】2020年11月份机试试卷

2020年11月份机试试卷一、环境要求二、提交结果要求三、数据描述四、功能要求1.2.3.4.5.一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句，如不提交则不得分。2.带有分析结果的功能，请分析结果的截图与代码一同提交。三、数据描述countrydata.csv 是世界新冠疫情数，数据中记录了从疫情开始至 7 月 2 日，以国家为单位的每日新冠疫情感染人数的数据统计。字

2021-01-21 16:41:27 485

原创【Kafka】KafkaStream实例之二

KafkaStream实例之二LinuxFlumeKafkaJava APILinuxFlumeuserfriend-flume-kakfa.confuser_friend.sources=userFriendSourceuser_friend.channels=userFriendChanneluser_friend.sinks=userFriendSinkuser_friend.sources.userFriendSource.type=spooldiruser_friend.sour

2020-12-16 19:19:34 220

原创【Kafka】使用Java连接Kafka并上传/读取数据

使用Java连接Kafka并上传/读取数据ProducerConsumerProducerimport org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serializ

2020-12-07 20:06:21 1690

原创在linux系统上配置并运行kafka

在linux系统上配置并运行kafka前提条件解压并安装启动kafka简易使用Kafka查看topics创建topicstopics详情删除topics交互界面前提条件一台搭建好包括但不限于jdk hadoop zookeeper等环境的虚拟机解压并安装tar -zxvf kafka_2.11-2.0.0.tgz -C /opt/mv kafka_2.11-2.0.0/ kafka修改/etc/profile，记得sourceexport KAFKA_HOME=/opt/kafkaexpo

2020-12-02 19:11:46 359

原创【SPARK】知识点全讲解

SPARK知识点全讲解Spark环境部署Spark简介诞生与发展为什么使用SparkSpark优势Spark技术栈Spark架构设计Spark架构核心组件Spark交互工具Spark APISparkContextSparkSessionRDDDataSetDateFrameSpark环境部署前置条件：完成Scala环境部署可以参考我的博客：Scala环境部署和简单介绍然后我们在vmware虚拟机上配置Scala和Spark并初步使用Spark简介诞生与发展诞生于加州大学伯克利分校AMP实

2020-11-25 11:43:57 8321 3

原创【Spark项目实战】使用spark分析日志文件(json格式)

使用spark分析日志文件准备阶段导包整合格式转入DataFrame分解第一层json列分解cm列分解et列分解kv列loadingadnotificationactive_backgroundcommentpraise准备阶段启动好spark-shell的虚拟机一份op.log文件，如下图所示：导包import spark.implicits._import org.apache.spark.sql.functions._import org.apache.spark.sql.types.

2020-11-20 12:16:05 1179

原创【spark】算子：distinct union intersection subtract cartesian mapToPair flatMapToPair

算子：distinct union intersection subtract cartesian mapToPair flatMapToPairdistinct union intersection subtract cartesianjava版本scala版本mapToPair flatMapToPairmapToPaitdistinct union intersection subtract cartesianjava版本public class rddJava1 { public stati

2020-11-05 18:57:56 208

原创【spark】算子：WordCount Rdd Map ActionRdd

算子：WordCount Rdd Map ActionRddWordCountMapRddActionRddJava版本filterparallelizeWordCountimport org.apache.spark.rdd.RDDimport org.apache.spark.{Partition, SparkConf, SparkContext}object wordcount { def main(args: Array[String]): Unit = { System.se

2020-11-04 20:01:30 274

原创【Spark】初入门——使用IDEA实现WordCount

使用IDEA实现WordCount准备阶段主体代码块log4j日志文件修改准备阶段创建maven项目pom.xml需要修改和添加的部分：<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compile

2020-11-03 20:12:30 624

原创在vmware虚拟机上配置Scala和Spark并初步使用

在虚拟机上配置Scala和Spark准备阶段安装包配置文件scala部分spark部分spark初体验准备阶段一台配置好Java环境的虚拟机scala-2.11.12.tgzspark-2.4.5-bin-hadoop2.6.tgz安装包将scala和spark的安装包导入虚拟机解压，移动到opt目录下（或自定义），并改名tar -zxvf scala-2.11.12.tgz -C /opt/tar -zxvf spark-2.4.5-bin-hadoop2.6.tgz -C /opt/

2020-10-30 14:57:34 3960

原创 Scala面向对象——随堂笔记

Scala OOP类类成员访问修饰符类的定义类的继承抽象类单例对象定义单例对象伴生特质混入特质 mixin动态混入特质特质与抽象类的选择内部类样例类类类通过class关键字定义类通过new关键字创建实例类拥有成员变量和方法类的成员默认为public，也支持private、protected类中无法定义静态成员变量和方法类无需明确定义构造方法，通过构造参数列表声明为类的一部分类成员访问修饰符类的定义构造器：主构造器，辅助构造器成员的变量和方法//主构造器执行类定义中的所有语句

2020-10-23 16:50:50 218

原创 Scala之数组Array的方法全面总结（含实例操作）

Scala Array的方法一些基本操作添加合并数值操作查询比较一些基本操作val numbers = Array(1, 2, 3, 4) //声明一个数组对象val first = numbers(0) // 读取第一个元素numbers(3) = 100 // 替换第四个元素为100val biggerNumbers = numbers.map(_*2) // 所有元素乘以2添加合并++val a = Array(1,2)val b = Array(3,4)val c = a ++

2020-10-22 19:19:05 5777

原创 Scala函数-随堂笔记（持续更新）

Scala函数Java LambdaScala函数定义函数调用参数传递命名参数参数缺省值参数个数未知匿名函数函数作参数函数作返回值课堂小测Java Lambda函数式接口：一种只含有一个抽象方法声明的接口可以使用匿名内部类实例化函数式接口的对象通过Lambda表达式可以进一步简化代码Lambda语法：(parameters) -> expression(parameters) -> { statements; }Scala函数定义def 函数名([参数列表]):[返回值

2020-10-20 14:30:58 290

原创 Scala入门-随堂笔记

这里写目录标题Scala简介Scala初体验安装及配置Scala验证scala安装插件HelloWorld实例Scala概述Scala变量与常量变量常量使用类型别名定义变量Scala数据类型原始数据类型数据类型层次结构字符串插值Scala条件控制条件语句的返回值Scala循环控制whilefor循环中断for循环过滤for循环返回值Scala数组Scala之Array的方法Scala简介Scala源自JavaScala构建在JVM之上Scala与Java兼容、互通Scala的优势多范式编程：面

2020-10-19 16:02:29 623

原创数据仓库理论介绍（随堂笔记）（持续更新）

数据仓库理论介绍为什么学习数据仓库什么是数据仓库面向主题实例集成非易失随时间变化为什么学习数据仓库数据不兼容，很难被整合战略决策需要数据的分析推荐系统什么是数据仓库数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合面向主题主题（Subject）是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念每一个主题基本对应一个宏观的分析领域在逻辑意义上，它是对应企业中某一宏观分析领域所涉及的分析对象例如“销售分析”就是一个分析领域，因此这个数据仓库应用的

2020-10-08 15:20:34 751 1

原创大数据全知识点讲解之HBASE

大数据全知识点讲解之HBASE（上）NOSQLNOSQL三大基石索引和查询MapReduce/ShardingNOSQL分类HBASEHBASE应用场景HBASE物理架构HBase数据管理HBase架构特点HBase ShellNOSQLNOSQL的全称是：not only sql，即非关系型数据库。NOSQL是一个通用术语：指不遵循传统RDBMS模型的数据库数据是非关系的，且不使用SQL作为主要查询语言解决数据库的可伸缩性和可用性问题不针对原子性和一致性问题为什么使用NOSQL？因为传

2020-09-24 20:14:38 354

原创大数据知识点全讲解之Hive(中)

大数据知识点全讲解之Hive（中）Hive查询语法基础语法常用函数Limit语句Where语句分组Join语句Hive查询语法select [ALL | DISTINCT] select_expr, select_expre, ...from table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list]| [DISTRIBUTE BY col_list] [SO

2020-09-22 23:01:44 481

原创大数据知识点全讲解之Hive(上)

大数据知识点全讲解之HiveHive简介Hive结构Hive与Hadoop的关系Hive安装Hive交互方式Hive数据类型Hive的基本数据类型Hive的复杂数据类型Hive元数据结构Hive和BeelineHive的基本操作数据库操作数据表操作Hive简介Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能其本质是将SQL转换为MapReduce的任务进行运算，底层是由HDFS来提供数据的存储为什么使用Hive？采用类SQL语法去操作

2020-09-16 19:47:38 355

原创大数据知识点全讲解之HDFS

大数据知识点全讲解之HDFSHDFS介绍HDFS应用场景HDFS架构ClientNameNodeDataNodeSecondary NameNodeNamenode的作用DataNode的作用HDFS的副本机制HDFS的命令行使用HDFS的高级命令HDFS写入过程HDFS读取过程HDFS的API操作HDFS-HA高可用HDFS介绍HDFS，Hadoop Distributed File System 是Apache Hadoop项目的一个子项目，Hadoop非常适于存储大型数据（比如TB或PB），其就是

2020-09-16 17:12:44 485

原创大数据全知识点讲解之Mapreduce

大数据全知识点讲解之MapreduceMapreduce介绍Mapreduce设计思想Mapreduce特点实现WordCountMapreduce执行过程Hadoop V1 MR引擎Hadoop V2 YARNMapreduce介绍MapReduce是一个分布式计算框架它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。起源于Google适用于大规模数据处理场景每个节点处理存储在该节点的数据每个job包含Map和Reduce两部分Mapreduce设计思想分而治之简化并行计

2020-09-15 23:43:39 754

原创大数据知识点全讲解之Hadoop

大数据知识点全讲解之HadoopHadoop介绍Hadoop豆知识为什么使用HadoopHadoop架构Hadoop搭建Hadoop介绍Hadoop是一个开源分布式系统架构狭义上来说，hadoop单独指代hadoop这个软件HDFS：分布式文件系统Mapreduce：分布式计算系统Yarn：分布式样集群资源管理广义上来说，hadoop指代大数据的一个生态圈，包括很多其他的软件zookeeperhbasehive…现在，Hadoop是处理海量数据的架构首选，它可以非常快得完成

2020-09-15 23:00:53 265

原创大数据知识点全讲解之Zookeeper

大数据知识点全讲解之ZookeeperZookeeper概述Zookeeper特点ZnodeZookeeper数据结构Zookeeper角色Zookeeper应用场景Zookeeper选举Zookeeper搭建Zookeeper的Shell客户端操作操作实例Znode属性Zookeeper的watch机制Zookeeper的JavaAPI操作Zookeeper概述zookeeper是一个开源的分布式协调服务框架，主要用来解决分布式集群中应用系统的一致性问题和数据管理问题Zookeeper由文件系统和通

2020-09-15 20:04:04 299

空空如也

空空如也