自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(271)
  • 收藏
  • 关注

原创 博客日常更新地址https://www.cnblogs.com/nuochengze

将博客搬至CSDN

2021-04-14 11:24:00 857

原创 18、【SparkStreaming】object not serializable (class: org.apache.kafka.clients.consumer.ConsumerRecord,...

背景:当SparkStream连接kafka,消费数据时,报错:object not serializable (class: org.apache.kafka.clients.consumer.ConsumerRecord, value: ConsumerRecord分析:消费者的消费记录序列化出现了问题,需要正确的进行序列化。措施:在设置sparkconf的时候,指定序列...

2023-07-01 17:54:00 236

原创 雷电模拟器adb remount失败时的解决方法

现象当我adb remount时报错:之前我执行过 adb root命令于是接下来执行:adb disable-verity,但是报错:分析需要打开雷电模拟器的磁盘共享为System.vmdk可写入:参考:https://www.ldmnq.com/forum/89106.html结果...

2023-02-27 10:06:00 1240 1

原创 解决 Ubuntu 22.04.1 LTS 初次安装时无法访问网络问题

背景:在VM中安装了Ubuntu 22.04.1 LTS,但是其无法访问网络。解决措施:编辑/etc/NetworkManager/NetworkManager.conf文件,将managed=false设置为managed=true关闭网络,清除网络缓存2.1 关闭网络服务:sudo service NetworkManager stop2.2 删除网络缓存:sudo r...

2022-12-03 02:04:00 3003

原创 一、Azkaban简明笔记

1、azkaban部署主要是集群部署安装。1.1 准备安装包Downloads (azkaban.github.io)1.2 配置MySQL启动mysqlmysql -uroot -proot创建azkaban数据库create database azkaban;创建azkaban用户并赋予权限(可以不设置账号,继续使用root账号)-- 显示相关变量SHO...

2022-09-02 00:48:00 566

原创 八、数据化分析_python实战_简明笔记

目录0、概述1、思维篇1.1 数据化分析的思维1.1.1 目标思维1.1.2 对比思维1.1.3 细分思维1.1.4 溯源思维1.1.5 相关思维1.1.6 假设思维1.1.7 逆向思维1.1.8 演绎思维1.1.9 归纳思维1.2 数据分析的基础1.2.1 数据分析的方法1.2.1.1 产品研究1.2.1.2 品牌研究1.2.1.3 价格研究1.2.1.4 市场细分1.2.1.5 满意度研究1...

2022-06-12 23:18:00 523

原创 七、手写实现决策树算法

1. 实现决策树的前提:信息增益信息增益:​ 数据集合在被处理的之前之后,其信息发生的变化称为信息增益。香农熵或熵:​ 集合信息的度量方式称为香农熵或者简称为熵。熵被定义为信息的期望值:信息的定义如果存在有多个分类(分类1、分类2...)的条件下,待分类的事务可能被划分为其中某个分类,则该事务($$x_i$$)的信息定义为:\[l(x_i) = -log_2P(x_i) \...

2022-04-11 23:59:00 1679 1

原创 六、手写实现KNN算法

语义原理:k-近邻算法(k-Nearest Neighbor,KNN)。对于一个样本数据集合,其由特征数据和分类数据组成,特征数据和分类数据间存在对应关系,将其视为训练样本集;对于只存在特征数据的新数据,将其与训练样本集中特征进行比较,然后用算法提取样本集中特征最相似数据(最近邻)的分类标签,作为新数据的标签,以完成分类任务。数据原理:​ 计算两个向量点xA和xB之间的距离(欧式距离公式...

2022-04-06 23:29:00 387

原创 五、数据挖掘流程简明笔记

目录1、机器学习概述2、入门案例示例3、问题定义4、特征工程4.1 数据理解4.2 数据预处理4.2.1 数据清洗4.2.2 数据转换4.2.3 特征选择4.2.3.1 单变量特征选定:卡方检验(chi-squared)4.2.3.2 递归特征消除:RFE4.2.3.3 主要成分分析:PCA4.2.3.4 特征重要性5、模型选择5.1 评估算法的方式5.1.1 训练数据集和评估数据集分离5.1....

2022-04-04 20:39:00 284

原创 centos安装chrome及chromedriver

参考:https://www.cnblogs.com/nuochengze/p/12771782.html老版本的chrome:http://dist.control.lth.se/public/CentOS-7/x86_64/google.x86_64/chromedriver:https://chromedriver.storage.googleapis.com/index.h...

2022-03-28 09:37:00 421

原创 5、pandas.read_table(xxx)报错:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 3114...

添加参数:encoding="unicode_escape"

2022-03-06 11:46:00 1037 1

原创 四、CDA数据分析师系列_从零进阶_数据分析的统计基础_简明笔记

目录1、数据分析概述1.1 什么是数据分析1.2 数据分析六部曲1.2.1 明确分析目的和内容1.2.2 数据收集1.2.3 数据预处理1.2.4 数据分析1.2.5 数据展现1.2.6 报告撰写1.3 数据分析方法简介1.3.1 统计分析方法简介1.3.1.1 描述性统计分析1.3.1.2 回归分析1.3.1.3 对应分析1.3.1.4 因子分析1.3.1.5 方差分析1.3.2 数据挖掘方法...

2021-12-24 00:08:00 1733

原创 一、Spark简明笔记

目录1、Spark概述2、Spark体验2.1 Maven项目相关配置2.2 Spark运行环境2.2.1 Local模式2.2.2 Standalone模式2.2.3 Yarn模式2.3 部署模式的比较2.4 常用端口号3、Spark核心编程3.1 RDD3.1.1 RDD的定义3.1.2 RDD的核心属性3.1.3 基础编程3.1.3.1 RDD创建3.1.3.2 RDD并行度与分区3.1....

2021-12-12 22:57:00 998

原创 17、【SparkSQL】org.apache.hadoop.security.HadoopKerberosName.setRuleMechanism异常

背景当我在使用IDEA本地连接服务器spark服务时,虽然拷贝了hive-site.xml,提供了相应的依赖,仍然报错:org.apache.hadoop.security.HadoopKerberosName.setRuleMechanism依赖如下:<dependencies> <dependency> <groupId...

2021-12-07 12:52:00 812

原创 16、【SparkSQL】通过DataSet操作createOrReplaceGlobalTempView时报错

报错信息如下原因分析主要是没有在Spark配置hive的配置文件,把hive配置的hive-site.xml文件拷贝到spark目录下即可mv ../hive/conf/hive-site.xml ../spark/conf/hive-site.xml说明:如果报JDBC错误,还需要将../hive/lib下的mysql-jdbc驱动拷贝到../spark/jars目录中...

2021-12-05 10:59:00 1467

原创 一、sql利用错位相减的方式得到相同利率下的连续时间的时间区间

说明:环境为oracle一、需求二、思路思路一:需要判断连续发布的两次利率是否一致,如果一致,就只保留最先发布的一次记录需要附带排序后的时间的编号,以便实现错位相减的效果让去重后的数据进行关联,有得取舍思路二:如果为了能在数据获取后,对其进行序号打标,在mysql等支持procedure的函数中,可以通过如下方式begin select a.column,(@...

2021-11-14 16:04:00 1429

原创 二、Window通过VMWare搭建Linux集群后,将虚拟机暴露到宿主机局域网中,实现个人服务器搭建...

目录一、目的二、实现的方法2.1 保证VMnet8为NAT模式2.2 获取虚拟机IP后,与宿主机进行端口绑定2.3 查看宿主机端口配置是否生效2.4 宿主机的端口准入规则设置2.5 效果一、目的解决宿主机通过VMware WorkStation安装了虚拟机后,宿主机所在的局域网中其他机器能访问宿主机里的虚拟机。其本质是通过VMware提供的端口转发功能,链接到虚拟机ssh常用端口22,以宿主...

2021-11-10 22:10:00 817

原创 修改Centos7时区

检查当前时区timedatectltimedatectl #是一个命令行工具,它允许你查看并且修改系统时间和日期显示这个链接文件指向的实际路径ls -l /etc/localtime系统时区通过链接文件/etc/localtime配置,该链接指向/usr/share/zoneinfo目录下的一个二进制时区标识文件修改时区列出支持的时区timedatectl...

2021-11-07 18:39:00 260

原创 一、Flume简明笔记

目录一、Flume概述1.1 Flume定义1.2 Flume基础机构二、Flume快速入门2.1 安装部署2.2 入门案例2.2.1 监控端口数据官方案例:netcat-flume-logger.conf2.2.2 实时监控单个追加文件案例:exec-flume-hdfs.conf2.2.3 实时监控目录下多个新文件:spooldir-flume-hdfs.conf2.2.4 实时监控目录下...

2021-10-21 20:38:00 351

原创 6.【xzookeeper.sh】zookeeper集群启动脚本

#! /bin/bash# 开启zookeeper集群function zookeeper_start(){ echo "========zookeeper集群启动中...========"; echo "--------pc001 zookeeper服务启动--------"; ssh pc001 "zkServer.sh start"; echo "-...

2021-10-17 17:59:00 109

原创 5.【xsync.sh】集群群发文件脚本

#! /bin/bash# 1.判断参数个数if [ $# -lt 1 ] then echo 'Not Enougth Arugement!' exit;fi# 2.遍历集群所有机器for host in pc001 pc002 pc003do if [ $HOSTNAME != $host ] then ...

2021-10-17 17:57:00 99

原创 4.【xjpsall.sh】查看集群jps进程信息

#! /bin/bashfor host in pc001 pc002 pc003do echo "============$host==============" ssh $host "jps"done

2021-10-17 17:56:00 98

原创 3.【xkafka.sh】kafka集群启动脚本

#! /bin/bashfunction kafka_start(){ for host in pc001 pc002 pc003 do echo "============启动kafka服务 $host==============" ssh $host "kafka-server-start.sh -daemon $KAFKA_HOME/co...

2021-10-17 17:55:00 75

原创 2.【xhiveservice.sh】HIve集群启动脚本

#! /bin/bashHIVE_LOG_DIR=$HIVE_HOME/logsif [ ! -d $HIVE_LOG_DIR ] then mkdir -p $HIVE_LOG_DIRfi# 检查进程是否正常运行,参数1为进程名,参数2为进程端口function check_process(){ # 1 通过查看进程ps,获取pid ps...

2021-10-17 17:51:00 468

原创 1.【Xhadoop.sh】启动hadoop集群

#! /bin/bashif [ $# -lt 1 ] then echo "Tips:请输入参数" exitficase $1 in"start") echo "=================启动集群========================" echo "-----------------启动历史服务器-----...

2021-10-17 17:50:00 72

原创 一、HBase简明笔记

目录1、HBase概述1.1 Hbase定义1.2 HBase数据模型1.3 HBase基础架构2、HBase安装部署3、HBase shell操作3.1 基本操作3.2 表的操作4、HBase进阶4.1 架构原理4.2 写流程4.3 MemStore Flush4.4 读流程3.5 StoreFIle Compaction3.6 Region Split5、HBaseAPI5.1 DDL5.2...

2021-10-17 17:37:00 1296

原创 15、[HBase] java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBuffer...

背景将HBase的基础信息,配置完毕后,访问http://pc001:16010时,网页端无法访问分析查看对应的启动log日志:tail -f /opt/software/hbase-1.3.1/logs/hbase-nuochengze-master-pc001.log发现自己的$HBASE_HOME/conf/hbase-site.xml配置的hbase.rootdir的...

2021-10-13 15:22:00 132

原创 一、Sqoop简明笔记

1、Sqoop概述简介Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql、postgresql...) 间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres 等)中的 数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。原理将导入或导出命令翻译成mapr...

2021-10-12 23:17:00 92

原创 14、使用Sqoop从mysql导入数据到hive报错:Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF...

问题描述使用Sqoop从mysql导入数据到hive报错:Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly分析对于HiveConf.class类是存在的措施修改$SQOOP_HOME/conf/sqoop-env.sh# 添加以下内...

2021-10-12 22:41:00 297 1

原创 一、kafka简明笔记

目录1、概述1.1 定义1.2 消息队列1.2.1 使用消息队列的好处1.2.2 消息队列的两种模式1.2.3 Kafka基础架构2、Kafka快速入门2.1 集群部署2.2 Kafka命令行操作3、kafka架构深入3.1 kafka工作流程3.2 文件存储机制3.3 kafka生产者3.3.1 分区策略3.3.2 数据可靠性保证3.4 kafka消费者3.4.1 消费方式3.3.2 分区分配...

2021-10-12 00:02:00 180

原创 一、Hive简明笔记

目录1、Hive基本概念1.1 什么是Hive1.2 Hive的优缺点1.3 Hive架构原理2、Hive安装2.1 Hive安装部署2.2 Hive元数据配置到MySQL2.2.1 拷贝JDBC驱动2.2.2 配置 Metastore 到 MySQL2.3 使用元数据服务的方式访问Hive2.4 使用JDBC方式访问Hive2.5 hive 服务启动脚本2.6 Hive常见属性配置2.6.1 ...

2021-10-06 23:03:00 493

原创 13、hive在启动beeline客户端时报错:User: xxx is not allowed to impersonate xxx

背景在启动完成hive服务:hive --service metastore后启动hive2服务的过程中:hive --service hiveserver2后启动beeline客户端时,beeline -u jdbc:hive2://pc001:10000 -n nuochengze报错:java.lang.RuntimeException: java.lang.RuntimeE...

2021-09-27 16:04:00 500

原创 12、使用JDBC方式访问HIve,启动客户端时报错java.lang.NoClassDefFoundError: org/apache/tez/dag/api/TezConfiguration...

背景在启动完成hive服务:hive --service metastore后启动hive2服务的过程中:hive --service hiveserver2时报错:java.lang.NoClassDefFoundError: org/apache/tez/dag/api/TezConfiguration分析我的hive-site.xml配置文件:<?xml ver...

2021-09-27 15:32:00 1420

原创 11、配置hive元数据访问后,使用hive时报错FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org...

背景当配置了hive元数据访问后,启动元数据服务hive --service metastore,再开窗口使用hive报错:FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient...

2021-09-27 12:29:00 1614

原创 10、hive配置完hive.metastore.uris后报错

背景在配置完hive的hive.metastore.uris之后,报错Could not connect to meta store using any of the URIs provided. Most recent failure: org.apache.thrift.transport.TTransportException: java.net.ConnectException:...

2021-09-27 12:21:00 3493

原创 9、初始化元数据库时失败,遇到org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED! Met...

背景使用hive的过程中,本身存在一个metastore的情况下,初始化元数据库解决措施删除元数据库,后新建一个结果schematool -initSchema -dbType mysql -verbose...

2021-09-27 11:45:00 1792

原创 8、MySQL8 提示Public Key Retrieval is not allowed错误解决方法

背景在使用hive元数据服务方式访问hive时,使用jdbc连接到mysql时提示错误:java.sql.SQLNonTransientConnectionException: Public Key Retrieval is not allowed原因分析如果用户使用了 sha256_password 认证,密码在传输过程中必须使用 TLS 协议保护,但是如果 RSA 公钥不可...

2021-09-27 11:33:00 531

原创 7.hive启动出现权限错误 /tmp/hive on HDFS should be writable

系统要求在hdfs上用户应该具备写权限,而从报错可以看出只有所有者具有写权限,所有组合其他用户不具备。修改用户权限hadoop fs -chmod -R 777 /tmp

2021-09-27 11:00:00 299

原创 一、Zookeeper简明笔记

目录1、Zookeeper概述1.1 Zookeeper工作机制1.2 Zookeeper特点1.3 Zookeeper数据结构1.4 应用场景2、Zookeeper安装2.1 本地模式安装2.2 分布式部署3、客户端命令行操作4、Zookeeper内部原理4.1 Zookeeper选举机制4.2 节点类型4.3 Stat结构体4.4 监听器原理4.5 写数据流程5、API应用5.1 环境搭建5...

2021-09-26 13:00:00 123

原创 七、Hadoop简明笔记

目录1、Hadoop入门1.1 Hadoop优势1.2 Hadoop1.x、Hadoop2.x、Hadoop3.x的区别1.3 HDFS架构概述1.4 YARN架构概述1.5 MapReduce架构概述1.6 HDFS、YARN、MapReduce三者关系1.7 大数据技术生态体系1.8 环境准备1.9 Hadoop运行模式1.10 Hadoop本地模式运行:官方WordCount案例2、搭建H...

2021-09-25 12:32:00 1046

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除