绿萝蔓蔓绕枝生-CSDN博客

原创 CDH开启高可用后，NameNode主备节点切换

CDH开启HDFS高可用后，由于NameNode活动、备用状态引起的HDFS无法正常使用解决办法

2022-06-06 14:05:49 1056 1

问题：原因：这是因为 yum 采用 Python 作为命令解释器，这可以从 /usr/bin/yum 文件中第一行 #!/usr/bin/python 发现。而 python 版本之间兼容性不太好，使得2.X版本与3.0版本之间存在语法不一致问题。而CentOS 7自带的yum采用的是python2.7，当系统将python升级到3.4后，出现语法解释错误。解决办法：在设置里更改解释器设置，即修改/usr/bin/yum文件，指定使用 python2.7 作为 yum 的解释器：vim /usr/

2022-02-07 09:52:43 1815

原创 Linux 添加互信

一、添加主机列表vi /etc/hosts// 添加内容ip1 hoatnmae1ip2 hoatnmae2ip3 hoatnmae3二、秘钥分发2.1、生成秘钥ssh-keygen -t rsa2.2、复制秘钥cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys2.3、分发秘钥ssh-copy-id -i ~/.ssh/id_rsa.pub -p22 root@192.168.xx.xx三、分发时报错分发秘钥时报以

2022-01-18 14:26:06 1630

原创 Linux 挂载磁盘重启出错

Linux 开机出现 welcome to emergency mode! 解决方法报这个错误多数情况下是因为 /etc/fstab 文件的错误。注意一下是不是加载了外部硬盘、存储器或者是网络共享空间，在重启时没有加载上导致的。解决方法：输入密码登录 root 账户执行命令fsck -y /dev/...执行 fsck 校验并修复文件执行命令 reboot 重启系统，即可解决...

2022-01-12 11:10:18 1408

原创 Linux之磁盘阵列raid1

1、查看磁盘lsblk2、安装 raid 工具yum -y install mdadm3、创建 raid1mdadm -Cv /dev/md1 -n2 -l1 /dev/sd[a-b]4、查看 raid 详细信息mdadm -D /dev/md15、使用 raid 磁盘创建文件系统、挂载5.1、raid文件系统格式配置mkfs.ext4 /dev/md15.2、修改配置文件，添加挂载信息vim /etc/fstab/dev/md1 /data ext4 de

2022-01-06 17:23:07 1290

原创 Redis离线安装

目录1、解压源码2、编译安装3、启动测试4、设置 redis 开机自启，并且添加到系统服务4.1、创建修改 6379.conf4.2、拷贝启动文件并修改4.3、增加系统服务5、redis 测试1、解压源码源码包下载： https://pan.baidu.com/s/1kEWPwWCuBnDqYT3hcMINPg提取码：e46x上传并解压源码包tar -zxvf redis-4.0.11.tar.gz2、编译安装在解压的根目录下执行：make MALLOC=libc在解压的根目录中的 s

2021-12-08 17:00:29 1573

原创离线安装 gcc 和 gcc-c++

1、上传离线安装包阿里云开源镜像站： http://mirrors.aliyun.com/centos/7/os/x86_64/Packages/离线包下载地址： https://pan.baidu.com/s/16t5XHBcadrkxhLulatjXYg提取码：7ieu解压安装直接安装当前文件夹下所有 rpm 安装包rpm -ivh *.rpm --nodeps --force2、测试安装gcc -v gcc --version...

2021-12-08 16:35:45 4188 1

原创 yum 源配置

配置其他机器的 yum 源，修改 yum 源配置文件 CentOS-Base.repovim /etc/yum.repos.d/CentOS-Base.repo注释掉 mirrorlist ，开放并修改 baseurl ，示例如下：# CentOS-Base.repo## The mirror system uses the connecting IP address of the client and the# update status of each mirror to pick mi.

2021-12-03 15:38:46 533

原创基于 Mapnik 的地图服务器

目录一、简介二、安装 PostgreSQL 数据库和 PostGIS 扩展三、下载地图样式表和上传地图数据四、将地图数据导入 PostgresSQL五、生成 Mapnik Stylesheet六、安装 mapnik七、地图生成1、安装 Express 框架2、创建地图前端页面3、启动地图4、nodejs 服务后台持续运行三种方法一、简介该地图服务器是基于优麒麟系统的安装部署！！！优麒麟设置 root 密码：sudo passwd root升级系统sudo apt updatesudo apt

2021-11-30 10:48:07 2582 3

原创修改HDFS文件所有者

修改HDFS文件所有者sudo -u hdfs hadoop fs -chown root /...

2021-11-25 11:15:58 2529

原创 OpenStreetMap地图服务器安装

目录一．升级系统二．安装PostgreSQL数据库和PostGIS扩展三．下载地图样式表和上传地图数据四．将地图数据导入PostgresSQL五．安装mapnik mod_tile六．添加中文支持七．生成Mapnik Stylesheet八．配置渲染文件九．配置Apache服务器十．使用Leftlet在网页上显示和操作地图优麒麟设置root密码：sudo passwd root一．升级系统sudo apt updatesudo apt upgrade二．安装PostgreSQL数据库和Pos

2021-11-25 11:04:14 2584

原创 Linux IP设置

多台服务器共享同一网段即可互相访问ls /etc/sysconfig/network-scripts/vi /etc/sysconfig/network-scripts/ifcfg-eth0修改配置如下：TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=noneDEFROUTE=yesIPV4_FAILURE_FATAL=yesIPV6INIT=yesIPV6_AUTOCONF=yesIPV6_DEFROUTE=yesI

2021-11-22 13:49:37 1286

原创 hive 索引

目录1、机制和原理2、优缺点2.1、优点2.2、缺点3、索引操作3.1、创建索引2、查看索引3、删除索引4、加载索引数据5、使用索引1、机制和原理Hive的索引其实是一张索引表（Hive的物理表），在表里面存储索引列的值，该值对应的HDFS的文件路径，该值在数据文件中的偏移量。当Hive通过索引列执行查询时，首先通过一个MR Job去查询索引表，根据索引列的过滤条件，查询出该索引列值对应的HDFS文件目录及偏移量，并且把这些数据输出到HDFS的一个文件中，然后再根据这个文件中去筛选原文件，作为查询Jo

2021-11-12 16:28:53 2097

原创 hive 中文乱码问题

修改 hive 元数据对应的的字符编码为 utf8COLUMNS_V2 表存储表对应的字段信息元数据表字段说明CD_ID字段信息IDCOMMENT字段注释COLUMN_NAME字段名TYPE_NAME字段类型INTEGER_IDX字段顺序Navicat 连接 MySQL 修改进入 MySQL 中 hive 的元数据库，修改 COLUMNS_V2 表中的字段的字符集为 utf8 即可shell 修改修改字段注释为 utf8alter

2021-11-10 11:48:21 1596

原创 hive 之 xml 字段解析

1、测试字段<?xml version="1.0" encoding="UTF-8"?><people><Name>张三</Name><age>20</age><XinXi><XinBie>"男"</XinBie></XinXi></people><?xml version="1.0" encoding="UTF-8"?><people><Na

2021-10-19 10:35:38 1034

原创 Spark SQL 连接 hive

添加依赖： <dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> <scope>test</scope>

2021-09-29 15:37:20 418

原创 Python基础

1、Python定义Python 是一种易于学习又功能强大的编程语言。它提供了高效的高级数据结构，还能简单有效地面向对象编程。Python 优雅的语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的理想语言。2、基础语法2.1、常见转义字符字符解释\n换行符\反斜线’单引号"双引号\a响铃\b退格\t制表符\r回车2.2、变量在程序设计语言中，变量是存储单元的标示牌，在这块存储单元中，可

2021-09-15 16:18:19 1921

原创 Hadoop 源码编译

目录一、编译工具安装1、准备安装包2、软件安装2.1、yum 安装2.2、tar 包解压安装二、编译源码1、解压源码包2、进入到 hadoop 源码主目录3、通过 maven 执行编译命令4、等待结果一、编译工具安装1、准备安装包自行下载以下安装包apache-ant-1.9.16-bin.tar.gzapache-maven-3.3.9-bin.tar.gzhadoop-2.6.0-cdh5.14.2.tar.gzjdk-8u221-linux-x64.tar.gzprotobuf-2.5

2021-08-20 11:01:23 371

原创 HTML基本格式

基本标签 <!doctype html> html5的文档声明 <html></html> html标签 <head></head> 头标签 <body></body> 主体标签 <title></title> 标题标签 <font></font> 字体标签 <meta charset="utf-8"> 字符编码设置网页基

2021-07-29 13:59:26 758

原创修改rpm中的文件重新打包

1、安装rpmrebuild 和安装rpmbuild官网下载rpmrebuild-2.14.tar.gz安装包下载地址: https://sourceforge.net/projects/rpmrebuild/files/rpmrebuild/2.12-1yum install rpm-build2、配置rpm编译目录vi ~/.rpmmacros%_topdir /data/rpmbuild3、创建目录解压rpmrebuild文件到/data/rpmbuild中mkdir -p /d

2021-07-20 16:39:16 1396

原创基于CentOS 7的CDH 6 完整离线安装

目录1、CDH6资料准备2、虚拟机基础环境2.1、安装JDK2.2、添加互信3、下载依赖4、安装 MySQL5、关闭selinux6、安装 httpd 服务6.1、安装、启动服务6.2、生成 repodata 目录6.3、配置本地yum源7、连接 MySQL 准备7.1、创建元数据库7.2、MySQL 赋权7.3、引入 jar 包8、安装 Server 服务8.1、安装 cloudera-manager-daemons、cloudera-manager-agent8.2、修改配置文件8.3、安装cloude

2021-06-22 13:01:17 1204 1

原创 Java连接hive

注意：需要开启hive服务首先建一个maven工程，导入依赖包导pom.xml <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>1.1.0</version> </dependency.

2021-06-22 10:46:28 5801

原创 Flink工作原理

目录JobClientJobManagerTaskManagerSlotFlink是新的stream计算引擎，用java实现。既可以处理stream data也可以处理batch data，可以同时兼顾Spark以及Spark streaming的功能，与Spark不同的是，Flink本质上只有stream的概念，batch被认为是special stream。Flink在运行中主要有三个组件组成，JobClient，JobManager 和 TaskManager。主要工作原理如下图用户首先提交Fl

2021-03-29 19:52:02 233

原创 kettle的学习使用及常见bug

目录1、下载安装2、Windows 下使用 kettle2.1、解压安装2.2、启动 kettle2.3、创建 mysql 连接2.4、启动 mysql 连接3、创建一个转换3.1、创建转换3.2、设置表输入3.3、编辑插入/更新3.4、编辑表输出3.5、保存、执行转换4、创建 job4.1、新建一个 job4.2、保存执行job4.3、使用 Windows 的 cmd 窗口执行job5、连接hive5.1、创建hive测试数据库5.2、修改配置文件5.3、导入相应 jar 包5.4、创建hive连接1、

2021-03-23 11:13:56 1745

原创 Linux下的定时任务

1、crond 服务安装crontabyum install crontabs启动crontabservice crond start关闭crontabservice crond stop重启crontabservice crond restart查看crontab状态service crond status2、crontab 文件用户所建立的crontab文件中，每一行都代表一项任务，每行的每个字段代表一项设置，它的格式共分为六个字段，前五段是时间设定段，第六段是要执行的

2021-03-16 15:57:33 90

原创 MongoDB基础学习

目录1、MongoDB 简介1.1、MongoDB 特性1.1.1、面向文档存储1.1.2、不支持 JOIN1.1.3、MapReduce1.1.4、日志功能1.1.5、副本集1.1.6、自动分片1.2、MongoDB 数据模型2、下载安装 MongoDB2.1、配置 yum 源2.2、下载 MongoDB3、MongoDB 操作3.1、启动关闭3.2、数据库操作3.2.1、查看所有数据库3.2.2、创建数据库3.2.3、查看当前数据库3.2.4、删除数据库3.3、集合操作3.3.1、创建集合3.3.2、查

2021-03-15 18:46:23 666 1

原创 Python算法

目录1、KNN分类算法未完待续...1、KNN分类算法KNN分类算法是指…导入相应的包#导包import numpy as npimport pandas as pdimport matplotlib as mplimport matplotlib.pylab as plt#读取文件data=pd.read_csv(r"iris.csv")#数据处理data['Species']=data['Species'].map({'virginica':0,'setosa':1,'versi

2021-03-02 20:06:44 347 2

原创数据仓库环境搭建部署

目录1、Ubuntu 安装1.1、创建Ubuntu虚拟机1.2、Ubuntu 镜像下载1.3、开启虚拟机1.4、安装准备1.5、设置用户1.6、进入安装2、Ubuntu下安装VMware Tools2.1、安装Tools2.2、复制Tools安装包2.3、解压安装Tools2.4、进入root用户2.5、启动命令3、更换镜像源3.1、备份 source.list3.2、执行命令打开source.list文件3.3、国内源3.3.1、阿里源3.3.2、清华大学源3.3.3、东北大学源3.4、更新数据源4、连接

2021-02-26 20:49:14 1964

原创 Python（上）

一、Python 简介Python 是一种解释型、面向对象、动态数据类型的高级程序设计语言。Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python 由 Guido van Rossum 于 1989 年底发明，第一个公开发行版发行于 1991 年。像 Perl 语言一样, Python 源代码同样遵循 GPL(GNU General Public License) 协议。官方宣布，2020 年 1 月 1 日，停止 Python 2 的更新。Python 2.7

2021-01-29 12:05:43 694 1

原创 Python下载安装及环境搭建

1、在 Windows 上安装 Anaconda下载地址：https://pan.baidu.com/s/1jpqwurCjolkHaXHzn618vQ提取码：m9pj如果操作系统是 Win10 系统，请右键点击安装文件，选择以"管理员身份运行"（之前出现过在 Win10 上，未使用管理员权限安装导致后面 Scrapy 爬虫安装失败的情况）打开后一直下一步安装即可，中途可选择安装位置以及是否配置环境变量，全部选择以下即可在命令行中测试 Python 是否安装成功：python2、开发环境部署

2021-01-28 10:39:18 279

原创 KafkaEagle下载安装

1、下载安装下载地址：安装包提取码：m9pj解压安装tar -zxvf kafka-eagle-bin-1.4.5.tar.gz -C /opt安装完成后修改安装名为 eaglemv kafka-eagle-bin-1.4.5 eagle2、修改配置2.1、修改kafka-server-start.sh文件该文件的路径为：/opt/kafka/bin/kafka-server-start.shvim /opt/kafka/bin/kafka-server-start.sh

2021-01-19 10:56:12 1226

原创 Kafka之topic操作

目录一、topic队列操作1.1、查看topic列表1.2、创建topic队列1.3、查看topic详细信息1.4、删除topic队列二、队列消息操作2.1、生产队列消息2.2、消费队列消息2.3、查看消息队列每个分区中的数量三、执行Flume将数据写入Kafka一、topic队列操作1.1、查看topic列表kafka-topics.sh \--zookeeper 192.168.8.99:2181 \--list1.2、创建topic队列kafka-topics.sh --create

2021-01-14 20:05:32 508

原创 Flume日志收集系统

一、客户端获取数据，logger输出创建 flume 文件netcat-flume-logger.confa1.sources=r1a1.channels=c1a1.sinks=k1a1.sources.r1.type=netcata1.sources.r1.bind=localhosta1.sources.r1.port=7777a1.channels.c1.type=memorya1.channels.c1.capacity=1000a1.channels.c1.transact

2021-01-14 19:50:01 331

原创《Apache Spark 基础及架构》

目录一、认识 Spark1.1、Spark 特点1.1.1、快速1.1.2、易用1.1.3、通用1.1.4、多种运行模式1.2、Spark 与 MapReduce 比较1.2.1、易用性1.2.2、效率1.2.3、任务启动开销1.3、Spark 技术栈1.3.1、Spark Core1.3.2、Spark SQL1.3.3、Spark Streaming1.3.4、Spark GraphX1.3.5、Spark MLlib二、Spark环境部署2.1、Spark安装2.2、Standalone 模式2.2.

2021-01-06 19:33:18 1010 2

原创 Flink开发步骤、核心技术原理及窗口机制

目录概述1、Evironment2、Source2.1、从集合读取数据2.2、从本地文件中读取数据2.3、从HDFS文件中读取数据2.4、从Kafka获取数据2.5、自定义数据源3、Transform3.1、map3.1.1、MapFunction3.1.2、RichMapFunction3.1.3、flatMap3.2、filter3.3、keyBy3.4、shuffle3.5、split3.6、select3.7、connect3.8、union3.9、Operator3.9.1、滚动聚合算子（Roll

2020-12-30 19:44:10 511

原创 HBase精讲（下）

目录一、Phoenix 集成 HBase1.1、Phoenix 与 HBase 集成环境搭建1.2、HBase 其他API一、Phoenix 集成 HBase1.1、Phoenix 与 HBase 集成环境搭建Phoenix 下载及安装配置详见：Phoenix 4.14下载并安装.1.2、HBase 其他APIAPI类别API信息Javahttps://hbase.apache.org/apidocs/Pythonhttps://happybase.readthe

2020-12-23 11:18:35 524

原创 HBase精讲（上）

目录一、Hbase下载安装二、HBase 架构原理2.1、HBase 架构2.1.1、Client：客户端2.1.2、ZooKeeper2.1.3、HMaster2.1.4、HRegionServer2.1.5、HDFS2.1.6、Write-Ahead Logs2.1.7、HRegion2.1.8、Store2.1.9、MemStore2.1.10、HFile2.2、HBase 数据存储结构2.2.1、RowKey2.2.2、Column Family2.2.3、Cell2.2.4、Time Stamp2

2020-12-21 19:25:04 294 1

原创 Hive常用函数的说明介绍及其使用

目录1、Hive函数分类1.1、从输入输出角度分类1.2、从实现方式分类2、内置函数2.1、字符函数（1）concat()（2）concat_ws()（3）instr(string,substr)（4）length(string)（5）locate(substr,str,pos)（6）lower(string) /upper(string)（7）regexp_replace(x,y,z)（8）split(string,x)（9）substr(string,x,y)/substring(string,x,y)

2020-12-14 18:57:47 2431 2

原创 Hive常用窗口函数

目录一、概述1、定义2、语法3、演示数据二、窗口函数 - 序列1、row_number()2、rank()3、dense_rank()4、ntile(n)5、percent_rank()三、窗口函数 - 聚合1、count()2、sum()3、avg()、max()、min()四、窗口函数 - 分析1、cume_dist2、lead／lag(col,n)3、firsvt_value、last_value五、窗口函数 - 窗口子句1、含义2、行窗口3、范围窗口一、概述1、定义窗口函数是一组特殊函数扫

2020-12-11 19:17:29 1306

原创 Hadoop和Hive服务启动脚本

Hadoop 启动脚本执行脚本时需传入一个参数参数为：start、stop、restart、statusstart：启动 hadoop 所有服务stop：关闭 hadoop 所有服务restart：重启 hadoop 所有服务status：查看 hadoop 所有服务状态#!/bin/bash HADOOP_SBIN="/opt/hadoop/sbin"case $1 in start) $HADOOP_SBIN/start-dfs.sh

2020-12-11 16:11:24 487

空空如也

空空如也