屡傻不改-CSDN博客

原创 Python 开发环境搭建

一、在 Windows 上安装 Anaconda在官网上下载 Anaconda 的安装文件Anaconda3-5.1.0-Windows-x86_64.exe如果操作系统是 Win10 系统，请右键点击安装文件，选择以“管理员身份运行”（之前出现过在 Win10 上，未使用管理员权限安装导致后面 Scrapy 爬虫安装失败的情况）Win10 以管理员身份运行安装步骤一：安装步骤二：安装步骤三：安装步骤四：安装步骤五：将两个复选框都选上。安装步骤六：点击 Skip，不安装 V

2021-01-25 17:08:30 308

原创 2021-01-19课堂检测三

一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句，如不提交则不得分。2.带有分析结果的功能，请分析结果的截图与代码一同提交。三、数据描述UserBehavior 是阿里巴巴提供的一个淘宝用户行为数据集。本数据集包含了 2017-09-11至 2017-12-03 之间有行为的约 5458 位随机用户的所有行为（行为包括点击、购买、加购、喜欢）。数据集的每一行表示一条用户行为，由用户 ID、商品 ID、商品类目 ID、行为类

2021-01-22 17:30:22 502

原创 2021-01-18课堂检测二

一、环境要求Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句，如不提交则不得分。2.带有分析结果的功能，请分析结果的截图与代码一同提交。三、数据描述meituan_waimai_meishi.csv 是美团外卖平台的部分外卖 SPU（Standard Product Unit ，标准产品单元）数据，包含了外卖平台某地区一时间的外卖信息。具体字段说明如下：四、功能要求1.数据准备（10 分）请在 HDFS 中创建目录/app/dat

2021-01-18 17:38:13 492

原创【Flink】（五）Flink ProcessFunction API

Flink ProcessFunction分层APIFlink提供三层API. 每个API在简洁性和表达之间提供不同的权衡,并针对不同的用例1、SQL/Table API (dynamic tables)2、DataStream API(streams, windows)3.ProcessFunction(event,state,time)ProcessFunction不要跟ProcessWindowFunction混为一谈。ProcessFunction是一个低阶的流处理

2021-01-18 17:24:00 526

原创【Flink】（四）Flink事件时间处理和水印

Flink事件时间处理和水印1、Flink 中的时间语义在 Flink 的流式处理中，会涉及到时间的不同概念，如下图所示Event Time：是事件创建的时间。它通常由事件中的时间戳描述，例如采集的日志数据中，每一条日志都会记录自己的生成时间，Flink 通过时间戳分配器访问事件时间戳。Ingestion Time：是数据进入 Flink 的时间。Processing Time：是每一个执行基于时间操作的算子的本地系统时间，与机器相关，默认的时间属性就是 Processing Tim

2021-01-18 16:38:41 1443

原创 2021-01-14课堂测试一

一、环境要求sandbox-hdp 2.6.4 或同等版本自建的 Hadoop+Hive+Spark+HBase 开发环境。二、提交结果要求1.必须提交源码或对应分析语句，如不提交则不得分。2.带有分析结果的功能，请分析结果的截图与代码一同提交。三、数据描述这是一份来自于某在线考试系统的学员答题批改日志，日志中记录了日志生成时间,题目难度系数，题目所属的知识点 ID，做题的学生 ID，题目 ID 以及作答批改结果。日志的结构如下：四、功能要求1.数据准备（10 分）请在 HDFS 中

2021-01-17 18:24:35 237

原创 Hive笔记之collect_list/collect_set（列转行）

collect_list和collect_set它们都是将分组中的某列转为一个数组返回，不同的是collect_list不去重而collect_set去重。做简单的实验加深理解，创建一张实验用表，存放用户每天点播视频的记录：create table t_visit_video ( username string, video_name string) partitioned by (day string)row format delimited fields terminated

2021-01-15 17:01:38 477

原创 VMware CentOS7增加磁盘容量、内存容量、处理器数量

参考链接：https://blog.csdn.net/dsjia2970727/article/details/109389860https://blog.csdn.net/Zhuuu_ZZ/article/details/112342211

2021-01-13 16:58:02 2833

原创【Flink】（三）Flink Window 窗口机制

Flink Window 窗口机制一、总览Window 是flink处理无限流的核心,Windows将流拆分为有限大小的“桶”，我们可以在其上应用计算。Flink 认为 Batch 是 Streaming 的一个特例，所以 Flink 底层引擎是一个流式引擎，在上面实现了流处理和批处理。而窗口（window）就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制。在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理

2021-01-07 14:11:50 238

原创【Flink】（二）Flink入门（详细教程）

Flink入门（详细教程）和其他所有的计算框架一样，flink也有一些基础的开发步骤以及基础，核心的API，从开发步骤的角度来讲，主要分为四大部分导入flink相关依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.7.2</version><

2021-01-05 16:07:47 623

原创【Flink】（一）深入理解Flink核心技术及原理

一、Flink简介Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink提供了诸多更高抽象层的API以便用户编写分布式任务：1、DataSet API，对静态数据进行批处理操作，将静态数据抽象成分布式的数据集，用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理，支持Java、Scala和Python。2、DataStream API，对数据流进行流处理操作，将流式的数据抽象成分布式的数据流，用户

2021-01-05 13:42:55 1412

原创【Spark】（五）Spark Streaming 之 DStream 转换与输出

一、DStream 转换DStream 上的操作与 RDD 的类似，分为 Transformations（转换）和 Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及各种 Window 相关的原语。1、无状态转化操作无状态转化操作就是把简单的 RDD 转化操作应用到每个批次上，也就是转化 DStream 中的每一个 RDD。部分无状态转化操作列在了下表中。注意，针对键值对的 DStream 转化操作

2021-01-04 19:58:49 895 1

原创【Spark】（四）Spark Streaming 结合 SparkSql 实例

导入 spark-sql 的依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version></dependency>代码示例package cn.kgc.kb09.Sparkimport org.apache.kafka.c

2021-01-04 19:18:36 303

原创【Spark】（三）Spark Streaming 中的 Window操作

Spark Streaming中的Window操作窗口函数，就是在DStream流上，以一个可配置的长度为窗口，以一个可配置的速率向前移动窗口，根据窗口函数的具体内容，分别对当前窗口中的这一波数据采取某个对应的操作算子。需要注意的是窗口长度，和窗口移动速率需要是batch time的整数倍。**spark streaming 中有三个关于时间的参数，分别如下：**窗口时间windowDuration：当前窗口要统计多长时间的数据，是批量时间的整数倍滑动时间slideDuration：要

2020-12-29 09:40:27 326

原创【Spark Streaming】（二）Spark Streaming - 实时数据采集

案例一：WordCount（scala版本）从本机的7777端口源源不断地收到以换行符分隔的文本数据流，并计算单词个数package cn.kgc.kb09.Sparkimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.ReceiverInputDStreamobject Sp

2020-12-28 19:42:25 1091

原创【Spark Streaming】（一）Spark Streaming 简单入门

一、概述SparkStreaming是流式处理框架，是Spark API的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume, Twitter, ZeroMQ或者TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如：map,reduce,join,window 。最终，处理后的数据可以存放在文件系统，数据库等，方便实时展现。一个简单的示例下面以一个简单的例子开始spark streaming的学习之旅！我们会从本机的7777端口源源不断

2020-12-22 09:28:32 664

原创【Kafka】（九）Kafka Stream API 实现二

案例一：利用Kafka流实现对输入数字的求和一、Kafka Java代码public class SumStream { public static void main(String[] args) { Properties prop = new Properties(); prop.put(StreamsConfig.APPLICATION_ID_CONFIG,"sumstream"); prop.put(StreamsConfig.BOOTST

2020-12-21 20:11:17 336 1

原创【Kafka】（八）Kafka Stream API 实现一

案例一：简单的Kafka Stream API一、Kafka Java代码创建maven过程，导入以下依赖<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>2.0.0</version></dependency><dependency> &

2020-12-21 19:25:17 331

原创【Kafka】（七）Kafka Stream 详解

一、Kafka Stream 背景1、Kafka Stream 简介提供了对存储于Kafka内的树进行流式处理和分析的功能Kafka Stream的特点：Kafka Stream提供了一个非常简单而轻量的Library，它可以非常方便地嵌入任意Java应用中，也可以任意方式打包和部署除了Kafka外，无任何外部依赖充分利用Kafka分区机制实现水平扩展和顺序性保证通过可容错的state store实现高效的状态操作（如windowed join和aggregation）支

2020-12-21 19:00:36 4318 2

原创 Phoenix 启动报错： Error: ERROR 726 (43M10): Inconsistent namespace mapping properties. Cannot initiate

Phoenix 启动报错：Error: ERROR 726 (43M10): Inconsistent namespace mapping properties. Cannot initiate connection as SYSTEM:CATALOG is found but client does not have phoenix.schema.isNamespaceMappingEnabled enabled (state=43M10,code=726)解决方法如下：1、删除hbase和phoe

2020-12-18 11:56:56 1494 2

原创【Kafka】（六）Flume读取数据连接到Kafka，利用Kafka Stream实现数据清洗

案例创建Topic[root@hadoop001 ~]# kafka-topics.sh --zookeeper 192.168.247.201:2181 --create --topic user_friends_raw --partitions 1 --replication-factor 1编写 userFriend-flume-kafka.confvi /opt/flume/conf/jobkb09/userFriend-flume-kafka.conf内容如下：user_frie

2020-12-15 18:44:25 591

原创分布式资源管理框架Yarn的工作机制(执行流程)

Yarn工作机制流程图Yarn工作机制详细介绍1、客户端向整个集群提交MapReduce作业，申请jobID2、ResourceManager给Client返回该job资源的提交路径（HDFS 路径）和作业ID3、Client发送jar包、切片信息和配置文件到指定的资源提交路径。4、Client提交完资源后，向ResourceManager申请执行作业5、ResourceManager收到Client的请求后，将该job添加到容量调度器（Resouce Scheduler）中6、调度器将任务

2020-12-15 10:56:29 269

原创 HDFS读写流程详细解读

HDFS读文件流程在这里插入图片描述读取文件过程简述：1、客户端向NameNode发起读数据请求；2、NameNode响应请求并告诉客户端要读的文件的数据块位置（存在哪个DataNode上）；3、客户端到对应DataNode读取数据，当数据读取到达末端，关闭与这个DataNode的连接，并查找下一个数据块，直到文件数据全部读完；4、最后关闭输出流。读取文件过程详细解读：1、客户端调用FileSystem 实例的open 方法，获得这个文件对应的输入流InputStream。2、通过RPC

2020-12-15 10:42:00 2265 1

原创 Hadoop和Hive服务启动脚本

Hadoop 启动脚本执行脚本时需传入一个参数参数为：start、stop、restart、statusstart：启动 hadoop 所有服务stop：关闭 hadoop 所有服务restart：重启 hadoop 所有服务status：查看 hadoop 所有服务状态#!/bin/bash HADOOP_SBIN="/opt/hadoop/sbin"case $1 in start) $HADOOP_SBIN/start-dfs.sh

2020-12-15 10:19:21 279

原创【Kafka】（五）kafka数据可靠性深度解读

详情请参考以下文献内容：https://blog.csdn.net/u013256816/article/details/71091774

2020-12-15 09:59:08 139

原创 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.

在MySQL创建完数据库hive后，在hive命令行中执行分区表加载数据是出现以下报错信息：原因：编码的问题，因为hive默认的是iso8859（latin1）解决方法：1、进入到MySQL中，删除之前所创建的hive库show databases;drop database hive;2、再新建hive库，并手动指定编码格式为latin1create database hiveuse hive#修改hive库的编码格式：alter database hive character se

2020-12-09 17:22:06 13273 1

原创 Column length too big for column ‘PARAM_VALUE‘ (max = 21845)； use BLOB or TEXT instead

Hive创建表时报错:错误代码如下:解决方案：这是mysql编码格式的问题,进入mysql,输入这三条命令:show variables like "char%";use hive;alter database hive character set latin1;修改前:修改后:

2020-12-09 17:05:02 1094

原创【Kafka】（四）Kafka使用 Consumer 接收消息消费

Consumer概要consumer中的关键术语：消费者(consumer)：从kafka中拉取数据并进行处理消费者组(consumer group)：一个消费者组由一个或者多个consumer实例组成位移(offset)：记录当前分区消费数据的位置位移提交(offset commit)：将消费完成的消息的最大offset提交确认位移topic(_consumer_offset)：保存消费位移的topic消费方式：（poll/push）Kafka Consumer采用的是主动拉取broker

2020-12-07 19:46:34 1480

原创【Kafka】（三）Kafka使用 Producer 发送消息

1、Kafka的ProducerProducer就是用于向Kafka发送数据。如下：2、添加依赖：<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.0.0</version></dependency>3、发送消息3.1 启动kafka（Ka

2020-12-07 19:09:25 908

原创【Flume】（四）IDEA编写自定义拦截器

IDEA编写自定义拦截器IDEA中导入以下依赖： <dependency> <groupId>org.apache.flume</groupId> <artifactId>flume-ng-core</artifactId> <versi

2020-12-03 09:51:55 584

原创【Flume】（三）Flume抓取数据（Flume入门案例）

在工作目录下创建以下文件案例一输入输出同步编写 agent 配置文件 netcat-flume-logger.confvi /opt/flume/conf/jobkb09/netcat-flume-logger.conf内容如下：a1.sources=r1a1.channels=c1a1.sinks=s1a1.sources.r1.type=netcata1.sources.r1.bind=localhost a1.sources.r1.port=7777 a1.

2020-12-02 20:03:31 488

原创【Kafka】（二）Kafka入门篇之常用命令

Broker（缓存代理，Kafka集群中的一台或多台服务器统称broker.）启动kafka-server-start.sh -daemon /opt/lns/server.properties启动kafka命令加上–daemon，那么kafka会以守护进程的方式启动查看启动是否成功jps Topic1、创建队列–zookeeper指定zookeeper的地址和端口，–partitions指定partition的数量，–replication-factor指定数据副本的数量。kafk

2020-12-02 19:36:00 252

原创【Kafka】（一）Kafka安装配置教程

Kafka安装配置流程1、解压安装包kafka_2.11-2.0.0.tgz至/opt/目录下,并重命名为kafkatar -zxvf kafka_2.11-2.0.0.tgz -C /opt/cd /opt/mv kafka_2.11-2.0.0/ kafka2、修改/opt/kafka/config目录下的配置文件server.propertiescd /opt/kafka/config/vi server.properties修改内容如下：broker.id=0advert

2020-12-02 18:47:07 873

原创【Flume】（二）Flume的基础介绍

Flume简介Flume是一个分布式、可靠、高可用的海量日志聚合系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据的简单处理，并写到各种数据接收方的能力。Flume 在0.9.x and 1.x之间有较大的架构调整，1.x版本之后的改称Flume NG，0.9.x的称为Flume OG。Flume目前只有Linux系统的启动脚本，没有Windows环境的启动脚本。Flume NG的介绍1、Flume特点flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输

2020-12-02 09:04:52 285 1

原创【Flume】（一）Flume下载安装配置教程

1、下载上传flume安装包到虚拟机下载链接：https://pan.baidu.com/share/init?surl=2M3_A14S8vZTnsh915efPA提取码：bxi22、解压flume安装包并改名tar -zxvf flume-ng-1.6.0-cdh5.14.0.tar.gz -C /opt/mv apache-flume-1.6.0-cdh5.14.0-bin/ flume3、修改配置文件进入/opt/flume/conf目录下复制flume-env.sh.tem

2020-12-01 19:14:17 1657 1

原创【Spark】（十九）项目实战 — 航班飞行网图分析

需求概述探索航班飞行网图数据构建航班飞行网图使用Spark GraphX完成下列任务统计航班飞行网图中机场的数量统计航班飞行网图中航线的数量计算最长的飞行航线（Point to Point）找出最繁忙的机场找出最重要的飞行航线（PageRank）找出最便宜的飞行航线（SSSP）数据探索下载数据链接: https://pan.baidu.com/share/init?surl=RUTXwr7Nqeg5cp8S8Tp0YA提取码：gvyd数据格式文件

2020-11-30 19:51:10 1189 1

原创【Spark】（十八）Spark GraphX 中的 pregel函数

Pregel概述Pregel是Google提出的用于大规模分布式图计算框架，常用来解决以下问题：图遍历（BFS）单源最短路径（SSSP）PageRank计算Pregel的计算由一系列迭代组成，称为supersteps。Pregel迭代过程（实现过程）如下：每个顶点从上一个superstep接收入站消息计算顶点新的属性值在下一个superstep中向相邻的顶点发送消息当没有剩余消息时，迭代结束源码参数分析 def pregel[A: ClassTa

2020-11-30 19:23:45 263

原创【Spark】（十七）GraphX之connectedComponents

连通分量连通分量是一个子图，其中任何两个顶点通过一条边或一系列边相互连接，其顶点是原始图顶点集的子集，其边是原始图边集的子集首先准备数据源，存放地址为Linux中/opt/kbfile目录下links.csv1,2,friend1,3,sister2,4,brother3,2,boss4,5,client1,9,friend6,7,cousin7,9,coworker8,9,father10,11,colleague10,12,colleague11,12,colleague

2020-11-26 15:21:57 1094

原创【Spark】（十六）PageRank（PR）算法原理剖析及Spark实现

PageRank（PR）算法用于评估网页链接的质量和数量，以确定该网页的重要性和权威性的相对分数，范围为0到10从本质上讲，PageRank是找出图中顶点（网页链接）的重要性GraphX提供了PageRank API用于计算图的PageRanPageRank算法基本思想描述：被用户访问越多的网页更可能质量越高，而用户在浏览网页时主要通过超链接进行页面跳转，因此需要通过分析超链接组成的拓扑结构来推算每个网页被访问频率的高低。最简单的，我们可以假设当一个用户停留在某页面时，跳转到页面上每个被链页面的概

2020-11-26 13:55:22 519

原创【Spark】（十五）基于Spark GraphX的图形数据分析

为什么需要图计算许多大数据以大规模图或网络的形式呈现许多非图结构的大数据，常会被转换为图模型进行分析图数据结构很好地表达了数据之间的关联性图（Graph）的基本概念1、图是由顶点集合（Vertex）及顶点间的关系集合（边edge）组成的一种网状数据结构通常表示为二元组：Graph=(V,E)可以对事物之间的关系建模2、应用场景：在地图应用中寻找最短路径社交网络关系网页间超链接关系图的术语1、顶点（Vertex）2、边（Edge）3、有向图4、无向图5、有环图

2020-11-26 10:22:03 913

空空如也

空空如也