夏末将至LL-CSDN博客

原创 hive计算，报错FAILED: return code 3 fromorg.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

hive计算，报错FAILED: return code 3 fromorg.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

2023-03-07 11:03:39 1343

原创 hive的开窗函数篇

hive的开窗函数over（）

2022-02-22 13:16:51 13061 1

1.fdisk -l查看磁盘信息，记下空余磁盘名字，以/dev/sdb为例2.pvcreate /dev/sdb创建基于磁盘的物理卷PV3.pvdisplay查看物理卷创建是否成功4.vgcreate vg_hdfs /dev/sdb创建vg_hdfs卷组vgremove hdfs 删除卷组（必须在卷组没有lv的情况下删除）5.vgdisplay查看卷组是否创建成功（vgs命令也可以）6.lvcreate -L 39.5G -n lv_hdfs vg_hdf..

2021-08-05 11:42:01 291

原创 mysql的开启审计日志功能

1、材料准备2、开始施工目录1、材料准备2、开始施工1、需要下载审计插件audit-plugin-mysql-5.7-1.1.7-921-linux-x86_64.zip，大量的时间花费到找这个资源了，我上传到博客里，后面的人直接拿走不谢。2、开始做了（1）先把整个压缩包上传到linux服务器/opt，然后解压。 unzip audit-plugin-mysql-5.7-1.1.7-921-linux-x86_64.zip ...

2021-07-14 22:03:35 2513 4

原创启动hdfs的时候某个datanode节点启动不成功

1、现象在启动hdfs的时候，某个节点的datanode始终起步成功，jps看不到datanode进程2、排查问题经过查看该节点的log日志：是namenode的version文件的clusterid和datanode不一致导致的，所以应该把该节点的version文件的clusterid改成和主节点一致3、问题解决4、拓展-原因NameNode保存元数据的！DataNode保存真实数据的！一个文件不管上传还是下载，必须访问NN，先获取NN中相关的元数据！

2021-06-30 18:06:47 361

转载 NodeManager中分布式缓存机制

分布式缓存介绍在Yarn中，分布式缓存是一种分布式文件分发与缓存机制，类似于MRv1中的Distrubuted Cache，其主要作用就是将用户应用程序执行时所需的外部文件资源自动透明的下载缓存到各个节点，从而省去了用户手动部署这些文件麻烦。YARN分布式缓存工作流程如下:1 客户端将应用程序所需的文件资源(外部字典、JAR包、二进制文件)提交到HDFS上。2 客户端将应用程序提交到RM上。3 RM将与某个NM进行通信，启动应用程序AM，NM收到命令后，首先从HDFS上下载文件(缓存),然

2021-06-30 15:56:45 211

原创 hbase在zk上的目录简介

都知道hbase依赖于zookeeper集群的，但是到底在zk上存了什么信息。连接到zk客户端：cd 到 zk的bin目录下面，连接zk客户端：zookeeper-client连接上后查看根节点下面有哪些节点： ls /发现有一个hbase节点，查看该节点下面的节点，ls /hbase发现节点如下：meta-region-server 该节点储存信息：元数据存储的RegionServer地址。rs 集群运行的RegionSer

2021-05-19 11:13:55 1194

原创 python用scrapy爬取58同城的租房信息

上篇我们用了beautifulsoup4做了简易爬虫，本次我们用scrapy写爬虫58同城的租房信息，可以爬取下一页的信息直至最后一页。1、scrapy的安装这个安装网上教程比较多，也比较简单，就不说了。2、创建scrapy项目在控制台输入命令 scrapy startproject 项目名3、导入项目到编译器，我这里用的pyscram，并在spiders文件夹下面创建zufang.py文件4、zufang.py的编辑下面的租房信息是我们要爬取的在zufang.py写入以下代码，其

2021-01-12 10:43:21 3522 3

原创 python爬虫的相关技术介绍和简单举例实现

一般使用python写爬虫，比较常用的有request库、beautifulsoup4 库和Scrapy框架，但是有一些区别：像request库和beautifulsoup4 插件库可以用来写轻量级的爬虫，而 Scrapy是一套更加完善的爬虫框架，类似于在写java的时候使用原始的jdbc来操作数据库还是使用mybatis框架操作数据库一样，使用解析库比较请便，但是Scrapy框架更加完善。做爬虫还得提到一个selenium库了，一般写python的自动化脚本会用到，用来模拟网页的点击和登录之类的。...

2020-12-29 16:55:02 315

原创 python文件在windows执行俩种的方法

方法一：进去cmd的dos窗口，然后输入python 文件名，如下：方法二：在python的shell窗口点击file -> open -> 然后选择你的python文件，这个时候会弹出一个窗口，弹出的窗口然后点击run -》 run module，即可在之前的shell窗口输出运行后的结果，如下：...

2020-10-10 10:06:23 772

转载网络OSI各层的作用简介

物理层：字面意思解释：物理传输、硬件、物理特性。在深圳的你与北京的朋友聊天，你的电脑必须要能上网，物理体现是什么？是不是接一根网线，插个路由器，北京的朋友那边是不是也有根网线，也得插个路由器。也就是说计算机与计算机之间的通信，必须要有底层物理层方面的连通，就类似于你打电话，中间是不是必须得连电话线。中间的物理链接可以是光缆、电缆、双绞线、无线电波。中间传的是电信号，即010101…这些二进制位。数据链路层早期的时候，数据链路层就是来对电信号来做分组的。以前每个公司都有自己的分组方式，非常的乱，后来.

2020-08-13 15:30:13 584

原创网络协议概念介绍

下面简介摘自百度百科：网络协议是网络上所有设备（网络服务器、计算机及交换机、路由器、防火墙等）之间通信规则的集合，它规定了通信时信息必须采用的格式和这些格式的意义。大多数网络都采用分层的体系结构，每一层都建立在它的下层之上，向它的上一层提供一定的服务，而把如何实现这一服务的细节对上一层加以屏蔽。一台设备上的第 n层与另一台设备上的第n层进行通信的规则就是第n层协议。在网络的各层中存在着许多协议，接收方和发送方同层的协议必须一致，否则一方将无法识别另一方发出的信息。网络协议使网络上各种设备能够相互交换信息。

2020-08-13 11:28:57 453

原创 mysql的索引使用场景和失效场景

哪些需要创建索引：1.主键自动建立唯一索引2.频繁作为查询条件的字段应该创建索引3.查询中与其他表关联的字段，外键关系建立索引4.频繁更新的字段不合适创建索引5.where条件里用不到的字段不创建索引6.在高并发的时候，倾向创建复合索引7.查询中的排序字段，排序字段若通过索引去访问将大大提高排序速度8.查询中统计或者分组字段哪些表不需要创建索引：1.表记录太少2.经常增删改的表数据重复且分布平均的表字段，因此应该只为最经常查询和最经常排序的数据列建立索引3.注意：如果某个数据列包含

2020-08-11 16:26:03 427

原创 es的sum聚合查询字段报错问题

现象：用java的api操做es求和，假如求和字段是keyword会有问题，大概会报错该字段不是numerical类型**原因：**1、text或者keyword类型不能求和，改为integer/double/long型.2、求和字段不要加keyword,添加keyword的目的是禁止分词，对于非text类型的字段，是默认不分词的解决办法：重建索引，把该字段改成long类型，然后用reindex把数据倒到新索引里面...

2020-08-11 10:26:12 2067 1

原创 mysql优化之Explain执行计划

执行计划：使用EXPLAIN关键字可以模拟优化器执行SQL查询语句，从而知道MYSQL是如何处理SQL语句的，分析查询语句或是表结构的性能瓶颈EXPLAIN语法：Explain+SQL语句EXPLAIN能做哪些事1.表的读取顺序2.数据读取操作的操作类型3.哪些索引可以使用4.哪些索引被实际使用5.表之间的引用6.每张表有多少行被优化器查询Explain的结构和各字段的解释id：select查询的序列号，包含一组数字，表示查询中执行select子句或操作表的顺序 id有三种情况 1.

2020-08-07 15:56:01 132

原创 mysql的索引详细解释和介绍

mysql的索引介绍：1、什么是索引？在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法。这种数据结构，就是索引，索引方式的案例如下：为了加快Col2的查找，可以维护一个右边所示的二叉树查找，每个节点分别包含索引键值和一个指向对应数据记录物理地址的指针，这样就可以运用二叉查找在一定的复杂度内获取到相应数据，从而快速的检索出符合条件的记录总结：索引是帮助mysql高效获取数据的数据结构，即索引的本质就是数据结构

2020-08-06 00:17:19 181

原创 mysql的sql执行顺序（join查询）

在我们书写mysql语句和实际执行的顺序是不一样的，如下图所示：总结：7种join查询：

2020-08-05 22:48:16 374

原创 es的api使用

在这里插入代码片package com.bcht.bigdata.fxyp.gd.api.service;import com.bcht.bigdata.common.entity.ESIndexConfig;import com.bcht.bigdata.common.utils.RecordUtils;import com.bcht.bigdata.fxyp.gd.api.config.ESConfig;import com.bcht.bigdata.fxyp.gd.api.entity.

2020-07-15 11:37:01 490

原创 sparkstrteaming的窗口函数的使用

直接上代码例子：词频统计import com.bcht.xl.common.{ConfigurationManager, KafkaMysqlmanage}import com.bcht.xl.constant.Constantsimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstrea

2020-07-12 22:56:29 2967

原创 sparksql和sparkcore/spark streaming/Structured streaming 的选用总结

sparksql和sparkcore/spark streaming/Structured streaming 的选用总结一句话概括：离线可以用：sparkcore、sparksql实时可以用：sparksql、spark streaming实时涉及到窗口统计：spark streaming Structured streaming其实，感觉Structured streaming就是在sparksql里面多加了窗口函数，比如sparksql通过kafka获取数据，sparksql和Struct

2020-07-12 22:45:29 543

原创 spark的Structured streaming的介绍和使用

Structured streaming 概念介绍源源不断的数据Data stream 经过逻辑处理，增加到一张非常大的表里（内存中维护了一张非常大的结果表），每一批数据类似于表里面的一行，不断地增加和更新，然后把结果表再sink到外部，如mysql等。**概念说完了，下面我们来干货：**写一个从kafka读取数据，然后分组统计，sink到mysql的例子。准备：kafka的消息结构：{“clsd”: “200”,“hpzl”: “07”,“jgsj”: “2020-07-09 23:26:2

2020-07-11 19:12:51 502

转载 List实现栈和队列

List实现栈和队列1、栈的实现 1)栈的功能：进栈、出栈、返回栈口元素 2)详解的过程看代码吧：import java.util.*;//1借助LinkedList 类中的方法实现栈public class MyStack {private LinkedList li=new LinkedList();//1构造方法 public MyStack()...

2020-06-29 15:47:10 615

原创 scala里关于val和var和可变/不可变的理解

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2020-06-29 15:37:25 919

qq_40202995的博客