2021年11月_赵广陆

原创 Spark多语言开发

目录1 多语言开发-说明2 Java-Spark-掌握2.1 SparkCore2.2 SparkStreaming2.3 SparkSQL2.4 StructuredStreaming2.5 线性回归算法-房价预测案例2.5.1 需求代码实现3 PySpark-了解3.1 SparkCore3.2 SparkStreaming3.3 SparkSQL3.4 StructuredStreaming3.5 决策树算法-相亲决策案例需求3.5.1 思路3.5.2 代码实现1 多语言开发-说明2 Java

2021-11-15 21:00:00 8452

原创大数据Spark Streaming实时处理Canal同步binlog数据

目录1. Canal 环境搭建2 配置Canal2.1 下载Canal2.2 解压2.3 修改instance 配置文件2.4 修改canal.properties配置文件2.5 启动Canal2.6. 验证2.7. 关闭Canal3 Spark实现实时数据分析3.1 在Mysql中创建如下两张表3.2 Spark代码开发3.2.1 在resources下new一个项目的配置文件my.properties3.2.2 在pom.xml文件中引入如下依3.2.3 在scala源码目录下的包下编写配置文件的工具类

2021-11-12 20:45:00 2891

原创 Hive数据仓库数据分析

目录1 创建数据仓库2 创建Hive分区表3 数据分析3.1 统计总记录数3.2 统计非空记录数3.3 关键词分析3.4 uid分析4 用户行为分析4.1 单击次数与rank之间的关系4.2 个性化行为分析5 实时数据1 创建数据仓库我们的目标是在Hive中创建数据仓库，以便利用Hive的查询功能实现交互式数据处理，所以接下来在Hive客户端进行操作。确保Hadoop和MySQL服务已经启动后再进入Hive客户端，命令如图10-11所示。hivecreate database sogou;下

2021-11-05 21:00:00 6302

原创 Hive操作超时错误:Session 0x0 for server null

1 Hive错误[HiveServer2-Background-Pool: Thread-69-SendThread(quickstart.cloudera:2181)]: Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect java.net.ConnectException: Connection refusedat sun.nio.ch.SocketCha

2021-11-30 21:45:00 1202

原创 Hive新增表在Impala查不到问题解决

1 问题产生Impala和hive一起使用，当我们在HIVE中新增一张表时，我们发现在Impala中不能及时查看到新增表，这是因为元数据信息没有及时刷新，在impala里执行invalidate metadata命令刷新元数据即可。这里我们简单测试HIVE中新建一张表并查看CREATE TABLE test_01(id INT,name STRING,sex STRING,dataday STRING);--HIVE中查看新增表hive> show tables;OKtest_01

2021-11-30 21:30:00 1784

原创 Hiveserver2的高可用搭建

目录1 部署启动hiveserver21.1 配置hive-site.xml1.2 配置hadoop中的core-site.xml文件1.3 测试2 高可用部署2.1 hive-site.xml添加配置2.2 Hiveserver2启动2.3 jdbc连接hive server方式2.4. 客户端轮询方式连接2.5 客户端直连方式连接1 部署启动hiveserver21.1 配置hive-site.xml利用Xshell工具连接虚拟机进入hive安装目录下的conf文件夹,更改hive-site.

2021-11-30 21:15:00 1641

原创大数据Flume数据流监控

目录1 Ganglia 的安装与部署1.1 安装 ganglia2 操作 Flume 测试监控2.1 启动 Flume 任务2.2 发送数据观察 a ganglia 监测图1 Ganglia 的安装与部署Ganglia 由 gmond、gmetad 和 gweb 三部分组成。gmond（Ganglia Monitoring Daemon）是一种轻量级服务，安装在每台需要收集指标数据的节点主机上。使用 gmond，你可以很容易收集很多系统指标数据，如 CPU、内存、磁盘、网络和活跃进程的数据等。gmet

2021-11-26 20:30:00 978

原创大数据Flume自定义类型

目录1 自定义 Interceptor2 自定义 Source3 自定义 Sink1 自定义 Interceptor1 ）案例需求使用 Flume 采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。2 ）需求分析在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构，Multiplexing的原理是，根据 event 中 Header 的某个 k

2021-11-26 20:30:00 1139

原创大数据Flume企业开发实战

目录1 复制和多路复用1.1 案例需求1.2 需求分析：单数据源多出口案例（选择器）1.3 实现步骤2 负载均衡和故障转移2.1 案例需求2.2 需求分析:故障转移案例2.3 实现步骤3 聚合3.1 案例需求3.2 需求分析:多数据源汇总案例3.3 实现步骤1 复制和多路复用1.1 案例需求使用 Flume-1 监控文件变动，Flume-1 将变动内容传递给 Flume-2，Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3，Flume-3 负责输出到

2021-11-26 20:15:00 990

原创大数据Flume特性

目录1 Flume 事务2 Flume Agent 内部原理3 Flume 拓扑结构3.2 复制和多路复用3.3 负载均衡和故障转移3.4 聚合1 Flume 事务2 Flume Agent 内部原理重要组件：1 1 ） ChannelSelectorChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型，分别是 Replicating（复制）和 Multiplexing（多路复用）。ReplicatingSelector 会将同一个 Ev

2021-11-25 16:31:25 558 1

原创大数据Azkaban失败任务预警

目录1 默认邮件预警案例2 电话预警案例2.1 第三方告警平台集成2.2 测试1 默认邮件预警案例Azkaban 默认支持通过邮件对失败的任务进行报警，配置方法如下：1 ）在 azkaban-web 节点 hadoop102 上，编辑/opt/module/azkaban/azkaban-web/conf/azkaban.properties，修改如下内容：[atguigu@hadoop102 azkaban-web]$ vim /opt/module/azkaban/azkaban

2021-11-24 22:15:00 1431

原创大数据Azkaban常见工作流进阶实战

目录1.Java案例工作流2 条件工作流案例2.1 运行时参数案例2.2.1 基本原理2.2.2 支持的条件运算符2.2.3 案例3 预定义宏案例4 定时执行案例1.Java案例工作流1）新建一个 azkaban 的 maven 工程2）创建包名：com.atguigu3）创建 AzTest 类public class AzTest { public static void main(String[] args) { System.out.println("This i

2021-11-24 21:45:00 321

原创大数据Azkaban Work Flow实战

目录1 HelloWorld 案例1.1 yarm语法：2 作业依赖案例2.1 修改 basic.flow 为如下内容2.2 将修改后的 basic.flow 和 azkaban.project 压缩成 second.zip 文件2.3 重复 HelloWorld 后续步骤。3 自动失败重试案例3.1 编译配置流3.2 将修改后的 basic.flow 和 azkaban.project 压缩成 four.zip 文件3.3 重复HelloWorld 后续步骤。3.4 执行并观察到一次失败+三次重试3.5

2021-11-24 21:00:00 381

原创 Spark学生答题情况分析

目录1 流程分析2 业务模块划分3 创建模块包结构4 准备Kafka主题4.1 测试发送数据到Kafka5 需求5.1 代码实现6 需求6.1 准备模型-直接训练并使用6.2 代码实现7 学生答题情况离线分析7.1 代码实现1 流程分析注意: 重点做的 2 3 4 部分2 业务模块划分准备工作3 创建模块包结构4 准备Kafka主题#查看topic信息/export/server/kafka/bin/kafka-topics.sh --list --zookeeper node1:2

2021-11-15 20:45:00 1736 2

原创 Logstash快速入门

目录1 Logstash简介1.1 参加资料1.2 用途2 部署安装2.1 测试2.2 配置详解2.2.1 输入2.2.2 过滤2.2.3 输出3 读取自定义日志3.1 日志结构3.2 编写配置文件3.3 输出到Elasticsearch1 Logstash简介Logstash是一个具有实时流水线功能的开源数据收集引擎.Logstash可以动态地统一来自不同来源的数据，并将数据规范化为您选择的目的地。为多样化的高级下游分析和可视化用例清理和民主化所有数据。虽然Logstash最初推动了日志收集方面

2021-11-15 20:30:00 1527 1

原创 Java操作时间工具类

目录1 LocalDate快速入门2 判断time是否在now的n天之内3 判断某个时间是否是在条件的起始时间与结束时间之内4 判断给定时间与当前时间相差多少天5 将String转换成Date6 Date与LocalDateTime互转7 日期前后比较1 LocalDate快速入门从Java 8之后，Java里面添加了许多的新特性，其中一个最常见也是最实用的便是日期处理的类——LocalDate。新增的日期jar主要有三种：java.time.LocalDate ->只对年月日做出处理ja

2021-11-15 20:30:00 1914

原创 Filebeat日志采集器实例

目录1 概述2 安装Filebeat2.1 配置Filebeat2.2 配置Filebeat以使用Logstash3 案例3.1 流程说明3.2 日志环境介绍3.3 配置Filebeat3.4 配置Logstash3.4.1 Logstash输出到控制台3.4.2 配置Logstash连接ElasticSearch4 Kibana分析业务4.1 启动Kibana4.1.1 添加到索引库4.1.2 创建柱形图4.1.3 创建饼图4.1.4 数据表格4.2 制作Dashboard1 概述Beats是用于

2021-11-15 20:15:00 1718

原创 Logstash接收Kafka数据写入至ES

1 Kafka数据写入至ES方式Kafka->logstash->elasticsearch->kibana(简单，只需启动一个代理程序)根据以上情况，项目决定采用方案一将Kafka中的数据存入到elasticsearch中去。项目拓扑图如下所示：此时消息的整体流向为：日志/消息整体流向Flume => kafka => logstash => elasticsearch => kibana2 环境搭建Logstash同步MySql数据到Elast

2021-11-12 21:00:00 4518 2

原创 Kafka JavaAPI

目录1 Producer API1.1 消息发送流程1.2 异步发送 API1.2.1 不带回调函数的 API1.2.2 带回调函数的 API1.3 同步发送 API2 Consumer API2.1 自动提交 offset2.2 手动提交 offset2.2.1 同步提交 offset2.2.2. 异步提交 offset2.3 自定义存储 offset1 Producer API1.1 消息发送流程Kafka 的 Producer 发送消息采用的是异步发送的方式。在消息发送的过程中，涉及到了

2021-11-09 21:00:00 669

原创 Logstash同步MySql数据到Elasticsearch

目录1 MySql数据到Elasticsearch1.1 下载logstash1.2 解压logstash1.3 在logstash 目录创建 mysql 文件夹1.4 将 mysql 驱动文件和数据库查询文件放进mysql中1.5 在config 目录下创建 mysqltoes.conf 文件1.6 mysqltoes.conf 配置1.7 启动 logstash2 配置语法讲解3 启动方式4 filebeat基本讲解5 实战运用5.1 业务到redis到es之间迁移5.2 业务到redis到mongo

2021-11-08 21:45:00 3863 3

原创大数据HDFS应用开发

目录1 HDFS 的 Shell 操作（开发重点）2 HDFS的常见Shell操作2.1 ls：查询指定路径信息2.2 put：从本地上传文件2.3 cat：查看HDFS文件内容2.4 get：下载文件到本地2.5 mkdir [-p]：创建文件夹2.6 rm [-r]：删除文件/文件夹3 HDFS案例实操4 Java代码操作HDFS4.1 配置Windows下Hadoop环境5 数据上传/下载的原理及过程1 HDFS 的 Shell 操作（开发重点）通过前面的学习，我们对HDFS有了基本的了解，下面

2021-11-08 20:30:00 1936 2

原创 Win11配置java环境变量

可能刚更新系统看到右键的界面有点懵或者直接搜索高级系统设置之后的操作就老样子了Java环境变量配置(win7+win10)

2021-11-07 17:38:52 1713

原创 Win11右键菜单还原Win10

每次都要展开很是反人类,难道是要我们用黑窗口操作吗?不得不说这个黑窗口还是下心血了.所以我看有的方法是删除注册表恢复win10的操作方法那么变成脚本就方便多了用法:复制下面脚本之后保存修改后缀为.batecho offcolor 1f:startclsecho,echo 修改右键菜单模式echo,echo 1 Windows 10 传统模式echo,echo 2 Windows 11 默认模式echo,echo,echo,echo 0 放弃修改

2021-11-07 15:57:15 1386

原创大数据预处理

目录1 数据提供2 查看数据3 数据扩展4 数据过滤5 数据上传1 数据提供为了保证实践的真实性，本章为读者提供了一个较大的数据文件，即sogou.500w.utf8，该文件是大数据领域很有名的一个供研究用的数据文件，内容是sogou网络访问日志数据，该文件被众多研究和开发人员所采用。找到sogou.500w.utf8文件，将其复制到Master的“/home/csu/resources/”目录（或者读者自己的任意目录）下。以下的大部分操作均围绕该数据文件进行。2 查看数据less sogou

2021-11-05 21:15:00 726

原创 Spark设计实现π的计算

目录1 分布式估算圆周率2 程序设计3 分布式运行3.1 采用本地模式提交sparkAPP.jar3.2 采用Yarn-client或Yarn-cluster模式提交1 分布式估算圆周率计算原理假设正方形的面积S等于x²，而正方形的内切圆的面积C等于Pi×(x/2)²，因此圆面积与正方形面积之比C/S就为Pi/4，于是就有Pi=4×C/S。可以利用计算机随机产生大量位于正方形内部的点，通过点的数量去近似表示面积。假设位于正方形中点的数量为Ps，落在圆内的点的数量为Pc，则随机点的数量趋近于无穷

2021-11-04 21:45:00 1915

原创 Spark Yarn模式部署集群

目录1 安装地址2 解压安装2.1 配置Linux环境变量2.2 scala环境配置2.3 配置spark-env.sh环境变量2.4 配置slaves文件2.5 将安装好的Spark复制到Slave3 启动并验证Spark1 安装地址http://archive.apache.org/dist/spark/spark-2.4.0/2 解压安装tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz2.1 配置Linux环境变量#sparkexport HADOO

2021-11-04 21:30:00 506

原创 Kafka集群搭建

目录1 下载或复制Kafka安装包2 解压缩Kafka安装包3 配置Kafka集群4 Kafka的初步应用4.1 创建主题4.2 发送消息4.3 消费消息1 下载或复制Kafka安装包http://archive.apache.org/dist/kafka/0.10.1.0/2 解压缩Kafka安装包tar -zxvf kafka_2.11-0.10.1.0.gz3 配置Kafka集群配置Kafka集群时只需要修改broker.id和zookeeper.connect。在Master

2021-11-04 21:15:00 471

原创大数据Sqoop搭建

目录1 启动条件2 下载或复制Sqoop安装包3 解压并安装Sqoop4 配置Sqoop4.1 配置MySQL连接器4.2 配置Sqoop环境变量4.3 配置Linux环境变量5 启动并验证Sqoop6 测试Sqoop与MySQL的连接1 启动条件Sqoop需要安装在成功部署，Hadoop的平台上，并且要求Hadoop已经正常启动。读者可以参见第6章中有关验证Hadoop是否处于正常运行状态的方法。准备就绪后，就可以开始安装Sqoop了。我们打算将Sqoop安装在Master上，因此以下的操作均是在

2021-11-04 20:45:00 557

原创 Linux报错:tar: Error Is Not Recoverable: Exiting Now

Linux操作系统下，下载完成xx.tar.gz文件然后执行tar -zxvf xx.tar.gz，执行出现如下错误：xxx.tar.gz: 归档文件中异常的 EOF tar: 归档文件中异常的 EOF tar: Error is not recoverable: exiting now解决方案有两种。方案一：去掉解压参数中的z，执行命令改为：tar -xvf xx.tar.gz。该方案的原因是：下载的文件并不是“通过 gzip 过滤归档”所以添加参数z就无法正常解压。但是一般从官网下载不会出现这种

2021-11-02 21:45:00 52821 3

原创 Linux主机名重启失效解决

Linux系统安装好后，都会有默认的主机名，这里以CentOS系统为例，默认的主机名为localhost.localdomain，为了便于使用，我们常常需要修改主机名，下面演示的是永久更改主机名的方法。步骤：1.以根用户登录，或者登录后切换到根用户，然后在提示符下输入hostname命令，可以看出当前系统的主机名为localhost.localdomain。2.更改/etc/sysconfig下的network文件，在提示符下输入vi /etc/sysconfig/network，然后将HOSTNA

2021-11-02 21:30:00 1694

原创 HBase启动时有进程webUI不显示HRegionServer各种情况解决方案

1 Hmaster主机观察是否有闪退java.lang.IllegalStateException: The procedure WAL relies on the ability to hsync for proper operation during component failures, but the underlying filesystem does not support doing so. Please check the config value of 'hbase.procedure.

2021-11-02 21:00:00 2474

原创 Linux报错:mkdir：无法创建目录“/opt/apps/xxx/logs“: Permission denied

Linux chmod（英文全拼：change mode）命令是控制用户对文件的权限的命令Linux/Unix 的文件调用权限分为三级 : 文件所有者（Owner）、用户组（Group）、其它用户（Other Users）。只有文件所有者和超级用户可以修改文件或目录的权限。可以使用绝对模式（八进制数字模式），符号模式指定文件的权限。使用权限 : 所有使用者语法chmod [-cfvR] [--help] [--version] mode file...八进制语法chmod命令可以使用八进

2021-11-02 20:45:00 5504

原创 Ubuntu卸载自带mysql

查看是否安装mysql#查看是否存在mysql服务service mysql status#查看安装了哪些相关软件包dpkg --get-selections | grep mysql卸载sudo apt purge mysql-*删除残留文件sudo rm -rf /etc/mysql/ /var/lib/mysql清除无用依赖包sudo apt autoremove清除本地残留文件sudo apt autoreclean...

2021-11-02 20:45:00 501

原创 sudo报错:no valid sudoers sources found, quitting

在使用Linux系统过程中，通常情况下，我们都会使用普通用户进行日常操作，而root用户只有在权限分配及系统设置时才会使用，而root用户的密码也不可能公开。普通用户执行到系统程序时，需要临时提升权限，sudo就是我们常用的命令，仅需要输入当前用户密码，便可以完成权限的临时提升。在使用sudo命令的过程中，我们经常会遇到当前用户不在sudoers文件中的提示信息，如果解决该问题呢？通过下面几个步骤，可以很简单的解决此问题。1、切换到root用户权限[oldlu@bigdata~]$ su root[r

2021-11-02 20:15:00 8919 3

原创微信开发获取签名wx.config

目录1 开发条件2 在后台使用动态url方式获取signature3 改为接口进行访问1 开发条件1 申请一个微信公众号，并确认在开发–接口权限中拥有分享功能的权限。2 公众号设置–功能设置：在JS接口安全域名中添加安全域名，这个安全域名不是url，只需添加一级域名即可。3 开发，基本配置中，需要获得开发者id，开发者密码，ip白名单，ip白名单是服务器的ip。4 获得jsapi_ticket：先获取access_token:https://mp.weixin.qq.com/wiki?t=re

2021-11-02 20:15:00 3471

原创 Hive报错:HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.me

启动hive的metastore或者启动hive后执行命令报错如下：FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.me原因分析：是由于没有初始化数据库导致，执行名称初始化数据库即可。解决办法：执行命令：schematool -dbType mysql -initSchema注意：我这里hive的metastore数据库为MySQL[oldlu

2021-11-02 20:00:00 7524

原创 Hbase集群搭建

目录1 启动条件2 安装3 配置4 启动并验证HBase5 HBase的基本应用1 启动条件HBase也需要安装在成功部署了Hadoop的平台上，并且要求Hadoop已经正常启动。同时，HBase需要作为集群来部署，因此，我们将在Master和Slave上安装HBase。下面的所有操作均使用csu用户，请先进行用户的切换。2 安装读者可以从“http://hbase.apache.org”下载最新版本的HBase，也可以直接在本书第6章软件资源中找到HBase安装包文件hbase-1.2.4-bi

2021-11-01 23:15:00 708

原创 Zookeeper集群搭建

目录1 安装2 配置3 启动和测试1 安装读者可以从“http://archive.apache.org/dist/”下载ZooKeeper安装包，也可以在本章软件资源文件夹中找到zookeeper-3.4.9.tar.gz文件。请将该文件复制到Master的“/home/csu/”目录下，进入该目录后执行解压缩命令：tar -zxvf zookeeper-3.4.9.tar.gz2 配置服务器集群属性ZooKeeper的服务器集群属性配置文件是zoo.cfg，该文件在安装目录的“con

2021-11-01 21:00:00 703

原创大数据Hive安装与应用

目录1 启动条件2 部署安装2.1 下载并解压Hive安装包2.2 配置Hive2.3 启动并验证Hive2.4 Hive的基本应用1 启动条件Hive需要安装在成功部署的Hadoop平台上，并且要求Hadoop已经正常启动。所以，读者需要首先验证自己计算机上的Hadoop是否处于正常运行状态，方法是执行一个Hadoop命令，如“hdfs dfs -ls /”，看是否能正常显示HDFS上的目录列表；同时，通过浏览器查看系统状态，地址是“http://maser:9870”和“http://master

2021-11-01 20:30:00 439

HTML+CSS仿京东购物车页面静态页面

jsp+mysql简单用户管理系统.rar

空空如也