十七公子吖》-CSDN博客

原创 python 爬虫 UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xa0‘

python 爬虫 UnicodeEncodeError: 'gbk' codec can't encode character '\xa0'

2022-08-30 11:50:16 398 1

原创 Oracle数据导入

1、在磁盘中创建文件info.ctl 2、记事本中打开文件info.ctl,编辑内容： OPTIONS(DIRECT=TRUE,READSIZE=4194304,ERRORS=-1,ROWS=100000)/*此参数为打开导入CLOB数据类型的数据模式，不配置此参数则不能导入CLOB数据长度超过4000的数据*/ /*平常数据使用如下代码即可*/ LOAD DATA INFILE '文件路径' APPEND INTO TABLE 用户名.表名 FIELDS TERMINATED BY '此处

2022-05-25 15:41:58 1066

原创 ORACLE SQL 将字符和数字分离开

例如： SELECT REGEXP_REPLACE(COLUMN_NAME,'[0-9]','') AS STR1,REGEXP_REPLACE(COLUMN_NAME,'[^0-9]','') AS STR2 FROM TAB_NAME;

2021-06-28 00:37:31 719

原创计算字符在字符串中出现的次数

11g以后可以使用 regexp_count： SELECT REGEXP_COUNT(COLUMN_NAME,',')+1 AS CNT FROM TAB_NAME; 其他版本可以使用如下方式：方式一： SELECT LENGTH(REGEXP_REPLACE(COLUMN_NAME,'[^,]'))+1 AS CNT FROM TAB_NAME; 方式二： SELECT LENGTH(TRANSLATE(STR,','||STR,','))+1 FROM TAB_NAME; .

2021-06-28 00:27:21 182

原创 ORACLE SQL 遍历字符串

使用 LEVEL 可以遍历，如下例子： SELECT SUBSTR(COLUMN_NAME,LEVEL,1) AS COL FROM TAB_NAME CONNECT BY LEVEL <= LENGTH(COLUMN_NAME);

2021-06-28 00:16:13 693

原创 ORACLE 生成连续数值

有两种方式可以生成：方式一： SELECT ROWNUM AS RN FROM EMP WHERE ROWNUM<=10; 方式二：通过树形查询的子句进行提取 SELECT LEVEL AS RN FROM DUAL CONNECT BY LEVEL <= 10;

2021-06-28 00:08:28 285

原创 Oracle数据库常用sql语句

一、数据控制语句 (DML) 部分 1、INSERT (往数据表里插入记录的语句) INSERT INTO 表名(字段名1, 字段名2, ……) VALUES ( 值1, 值2, ……); INSERT INTO 表名(字段名1, 字段名2, ……) SELECT (字段名1, 字段名2, ……) FROM 另外的表名; 字符串类型的字段值必须用单引号括起来, 例如: ’GOOD DAY’ 如果字段值里包含单引号’ 需要进行字符串转换, 我们把它替换成两个单引号''. 字符串类型的字段值超过定义的长

2021-06-04 17:29:30 6045

原创 Hadoop 安装部署详细说明

Hadoop 安装部署详细说明 Hadoop是什么？（1）Hadoop 是一个有 Apache 基金会开发的分布式系统基础架构（2）主要解决海量数据存储和海量数据分析计算问题（3）Hadoop 通常指 Hadoop 生态圈。 Hadoop 的优势（四高）高可靠性：Hadoop 底层维护多个数据副本，即使 Hadoop 某个计算程序或存储出现故障，也不会导致数据的丢失。高扩展性：在集群之间分配任务数据，可方便的扩展数以千计的节点。高效性：在 MapReduce 的思想下，Had

2021-05-16 17:12:46 1510 3

原创 Hadoop 优化

Hadoop 企业优化 MapReduce 跑的慢的原因 MapRe duce程序效率的瓶颈在于两点: 1．计算机性能 CPU、内存、磁盘健康、网络 2. I/O操作优化（1）数据倾斜（2）Map和Reduce数设置不合理（3）Map运行时间太长，导致Reduce等待过久（4）小文件过多（5）大量的不可分块的超大文件（6）Spil1次数过多（7）Merge次数过多等。 MapReduce优化方法 MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶...

2021-05-16 14:39:14 92

原创 MapReduce 简单概述操作

MapReduce 简单概述 MapReduce 的定义 MR 是一个分布式程序计算框架，基于 Hadoop 的数据分析应用核心框架。、 MR 核心功能：将用户编写的业务逻辑代码和自带的默认组件整合成一个完整的分布式计算程序，并发运行在 Hadoop 集群上。 MapReduce 的优缺点 1、优点： MR 易于编程有良好的扩展性有很高的容错性适合做 PB 级以上海量数据的离线处理 2、缺点：不擅长实时计算不擅长流式计算不擅长 DAG （有向图...

2021-05-16 14:22:50 1430

原创 HDFS HA 高可用

HDFS HA 高可用 HA 简述（1）所谓HA（High Available），即高可用（7*24小时不中断服务）。（2）实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。（3）Hadoop2.0之前，在HDFS集群中 NN 存在单点故障（SPOF）。（4）NameNode 主要在以下两个方面影响HDFS集群 NameNode机器发生意外，如宕机，集群将无法使用，直到管理员重启 NameN...

2021-05-15 21:54:44 243 2

原创 DataNode工作机制

Hadoop的服役新节点和退役新节点服役新节点环境准备（1）克隆原主机 or 添加新主机（2）修改主机 IP 地址和主机名称 vim /etc/hosts vim /etc/hostname （3）删除原有的 HDFS 文件系统的两个文件（hadoop-2.7.7/data 和 log）进入hadoop目录：rm -rf ./data ./log （4）source 一下配置文件/etc/profile source /etc/profile 文件配置（1）.

2021-05-15 19:11:29 114

原创 HDFS_NameNode和SecondaryNameNode

NameNode和SecondaryNameNode NN 和 2NN 的工作机制第一阶段：NameNode启动第一次启动 NN 格式化后，会创建 Fsimage 和 Edits 文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。客户端对元数据jinx增删改的请求。 NN记录操作日志，更新滚动日志。 NN在内存中对数据进行增删改。第二阶段：Secondary NameNode工作 2NN 询问 NN 是否需要 CheckPoint 。直接带回 NN 是否检查结果。 2N

2021-05-12 23:43:42 161

原创 HDFS 的数据流

HDFS 的数据流 HDFS 写数据流程写流程图（1）客户端通过Distributed FileSystem模块向NN请求上传文件，NN检查目标文件是否已存在，父目录是否存在；（2）NN返回是否可以上传。（3）客户端请求第一个 Block上传到哪几个DN服务器上。（4）NN返回3个DN节点，分别为dn1、dn2、dn3。（5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。（

2021-05-12 22:34:14 150 1

原创 HDFS 的 Shell 操作

HDFS 的 Shell 操作语法 bin/hadoop fs 命令 or bin/hdfs dfs 命令 dfs 是 fs 的实现类命令大全执行命令：hadoop fs 查看HDFS Shell 命令如下： Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-c...

2021-05-12 18:21:20 195 1

原创 HDFS 简单概述

HDFS简单概述产生背景：随着数据量越来越大，一个机器无法存储下所有数据，那就需要把这些数据分配到更多的机器上进行存储，这时就需要一种系统来管理多台机器上的文件，称之为分布式文件管理系统，HDFS就是分布式文件管理系统中的一种。定义：HDFS（Hadoop Distributed File System），是一个文件系统，用于存储文件，通过目录树定位文件；且是由多台服务器组成的分布式系统。应用场景：适用于一次写入，多次读取的场景，且不支持文件的修改操作。适合做数据分析。优缺点优点：高容错

2021-05-12 17:19:15 190

weixin_42209449的博客