龙技术-CSDN博客

原创 2024年大数据复习

hadoop是一个分布式系统基础架构，主要是为了解决海量数据存储和海量数据分析计算，广义上讲，hadoop是指hadoop生态圈磁盘IO、网络宽带优点：高容错性批量处理移动计算而非数据适合大数据一次写入，多次读取可以构建在廉价的机器上缺点：不适合低延迟数据访问不适合小文件存取不适合并发写入。

2024-03-19 23:00:52 746

大数据面试训练题：数据库：数据库中join可以替换成子查询修改缺省值：alter table 表名 alter column 字段名 set default 默认值全文索引：select *from table where mactch(列名) against(‘关键字’)关系型数据库中，用来表示实体间联系的是二维表mysql的几种语言：数据查询语言（DQL）查询表数据数据操作语言（DML）修改表数据数据控制语言（DCL）管理权限数据定义语言（DDL）修改表结构事务处理语言（TPL

2021-12-13 11:50:58 1731

原创 Spark知识点

SparkSpark是用于大规模数据处理的统一分析引擎RDD：弹性分布式数据集，认为是列表listSpark框架将要处理的数据封装到集合RDD中，调用RDD中函数处理数据RDD数据可以放到内存中，内存不足可以放到磁盘中Spark四大特点：运行速度快易用性好通用性强随处运行Spark处理数据与mapreduce处理数据相比，有如下两个不同点：Spark处理数据时，可以将中间处理结果数据存储到内存中，而mapreduce是将中间处理结果数据存储到磁盘中Spark job调度以DAG

2021-12-13 11:49:46 1686

原创 Hive知识点

HiveHive简介：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能本质：是将sql转换为mapreduce程序主要用途：用来做离线数据分析，比直接用MapReduce开发效率更高元数据存储在：mysql/derby这种关系型数据库Hive和hadoop和MapReduce的关系：Hive利用HDFS存储数据，利用MapReduce查询分析数据。Hive的metadata、metastore：metadata：元数据metas

2021-12-04 19:36:28 1393

原创 YARN知识点

YARNYARN是一种新的Hadoop资源管理器，它一个通用资源管理系统和调度平台，可为上层应用提供统一的资源管理和调度理解：可以把yarn理解为相当与一个分布式的操作系统平台，而mapreduce等运算程序则相当于运行于操作系统之上的应用程序，YARN为这些程序提供运算所需的资源（内存，cpu）yarn三大组件介绍（角色）：ResourceManager:负责整个集群的资源管理和分配，是一个全局的资源管理系统；NodeManager以心跳的方式向ResourceManager汇报资源使用情

2021-12-04 15:00:06 1284

原创 MapReduce知识点

MapReduceMapReduce核心思想：分而治之分而治之就是：把一个复杂的问题按一定的“分解”方法分为规模较小的若干部分，然后逐个解决，分别找出各部分的解，再把各个部分的解组成整个问题的解MapReduce过程：map阶段：安照块进行分片每个分片会对应一个map，运行map进行数据的进一步分割运行了map代码（将数据转换为键值对形式）Shuffing阶段：分区排序规约合并reduce阶段：reduce运行reduce代码数据展示...

2021-12-04 14:59:28 235

原创 HDFS知识点

HDFSHDFS介绍：HDFS就是hadoop分布式文件系统，是hadoop核心组件之一，作为最底层的分布式存储服务而存在。HDFS解决的问题就是大数据存储hdfs的垃圾桶机制：垃圾桶机制解析：每一个文件系统都会有垃圾桶机制，便于将删除的数据回收到垃圾桶里面去，避免某些误操作删除一些重要文件，回收到垃圾桶里里面的资料数据，都可以进行恢复。垃圾桶机制配置：HDFS的垃圾回收的默认配置属性为0，也就是说，如果不小心误删除了某文件，那么这个文件就不可恢复的，为了解决这个问题，就可以利用垃圾桶机制。

2021-12-04 14:58:28 993

原创 Zookeeper知识点

Zookeeper作用：分布式协调服务（监听hadoop是否宕机，宕机就使用另一个集群的hadoop）在数仓领域的场景，协调hadoop服务实现高可用每个zk服务里面存储的是状态信息Zookeeper特性：全局数据一致：集群中每个服务器保存一份相同的数据副本，client无论连接到哪个服务器，展示的数据都是一致的，这是最重要的特征；（每个zk服务之间数据是同步的，相同的）可靠性：如果消息被其中一台服务器接收，那么将被所有的服务器接收；（每个zk服务里存储的状态信息是一样的）顺序性：在had

2021-12-04 14:56:57 780

原创 hive项目--新零售项目1（项目介绍与环境准备）

新零售项目项目背景介绍、业务需求、虚拟机环境准备；零售行业的发展历程地摊、货郎价格老板自己说了算不稳定，流动性大质量没有保障种类少百货商店门店货物多明码标价随进随出质量有所保证超级市场自选商品购物效率环境更好商品的包装等，竞争更激烈，质量也更高连锁门店标准化管理，减少个人经验带来的损失分工管理、提升了效率供应链完备，进货成本更低店面更方便电商没有地域限制成本进一步降低（没有了租房费用）促进实体店的改进改变了零售行业的主体业务，

2021-11-14 21:57:05 824

原创 Hive存储格式及优化

Hive的数据存储格式列式存储、行式存储Hive中表的数据存储格式，不是只支持text文本格式，还支持其他很多格式。建表的时候通过STORED AS 语法指定。如果没有指定默认都是textfile（行存储）。Hive中主流的几种文件格式。textfile 文件格式ORC、Parquet 列式存储格式。都是列式存储格式，底层是以二进制形式存储。数据存储效率极高，查询方便。栗子分别使用3种不同格式存储数据，去HDFS上查看底层文件存储空间的差异。--1、创建

2021-10-19 15:24:43 341

原创 Hive--DQL操作

Hive–DQL内置运算符查看函数show functions;desc functions extended +;关系运算符大小比较select 1>1;select 1=1;select 1>=1;空值判断select 'asd' is null;select 'asd' is not null;模糊查询select 'itcast' like 'it____'; _代表匹配一个字符select 'itcast' like 'it%';

2021-10-19 15:23:32 244

原创 Hive--DDL操作

Hive–DDL操作hql语句形式DDL库、表、视图创建修改删除create、alter、dropDML表的具体数据的事务操作数据写入数据的修改数据的删除DQL数据查询from、where、group by、having 、聚合、select、order by，limitDCL权限控制grant用户创建修改重点创建数据操作和查询数据操作HQL建表基本建表语句create table tb_name( id i

2021-10-19 15:20:32 469

原创 Hive

Hive数据仓库存储数据关系型数据–sqoop，文件数据（日志，Excel，csv）datawarehouse–DW主要使用数据仓库进行相应的业务数据分析不生产数据，不消费数据数仓特征面向主题确认分析场景，某个方向某个领域。用户画像–基本信息（姓名，性别，年龄）用户行为（点击行为，浏览时间）集成性将所有相关数据，任何时间，任何类型，任何内容的数据收集在一起非易失性数据存储后不在改动，任何新的修改都会会以新文件的形式重新存储时变性会根据分析业务的

2021-10-19 15:19:24 88

原创编写启动连接hiveserver2脚本

编写启动连接hiveserver2脚本：进入环境变量目录：cd /bin新建脚本文件:vim hiveserverecho =========== metastore ============nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service metastore &yes | commandecho =========== hiveserver2 ==========nohup /export/serv

2021-10-19 11:39:32 246

原创 HIve安装与配置

大数据集群搭建（8）：Mysql安装卸载Centos7自带的mariadb[root@node3 ~]# rpm -qa|grep mariadbmariadb-libs-5.5.64-1.el7.x86_64[root@node3 ~]# rpm -e mariadb-libs-5.5.64-1.el7.x86_64 --nodeps[root@node3 ~]# rpm -qa|grep mariadb [root@node3 ~

2021-10-14 19:43:32 182

原创 Hadoop--Yarn

Hadoop–Yarn分区和shuffle分区存了map处理后的数据，该分区数据会交给一个reduce执行后续的数据计算shuffle是对map的数据进行相应的处理 :分区、排序、合并map在将数据传递给reduce之前需要需要通shuffle对数据进行提前处理Yarn的核心服务resourcemanager负责管理nodemanager负责协调整个集群服务的资源分配所有资源请求都需要交给resourcemanager单点故障resourcemanager不参与具体的计算过程，

2021-10-14 15:38:45 112

原创 Hadoop--MapReduce和Yarn

Hadoop–MapReduce和Yarnnamenode和secondarynamenode通讯过程namenode会保存元数据元数据：文件数据块数据 datanode数据在服务运行过程中元数据保存在内存上使用持久化将元数据保存在磁盘上secondarynamenode可以帮助namenode将元数据持久化存储到磁盘上根据存储的方式不同将元数据分为：内存元数据和文件元数据文件元数据分为两种文件形式edits 操作日志文件hdfs oev -i 转化的文件 -o 输出的文

2021-10-14 15:38:02 148

原创 hadoop的HDFS

Hadoop的HDFS历史记录查看启动历史记录服务mapred --daemon start historyserverjps## 拓展查看端口对应的程序是否启动lsof -i:端口web页面访问9870 hdfs8088 yarn19888 历史记录拓展–DNS解析202.108.22.5 www.baidu.com当我们使用域名访问网站时会通过dns服务器将域名转化为ip，最终通ip地址访问网站本机hosts文件可以完成域名解析工作windos的hosts文

2021-10-14 15:37:19 92

原创 zookeeper和hadoop

zookeeper和hadoopzookeeper操作连接zkCli.sh -server 服务名称查看客户端指令helpZooKeeper -server host:port cmd args stat path [watch] set path data [version] ls path [watch] delquota [-n|-b] path ls2 path [watch] s

2021-10-14 15:36:32 746

原创什么是大数据

大数据什么是大数据海量数据文件 mysql 缓存数据怎么进行大数据处理 hadoop数据怎么存储 hadoop中的HDFS数据怎么计算（增删改查）hadoop中的MR大数据特点Volume：数据量大，包括采集、存储和计算的量都非常大；Variety：种类和来源多样化。包括结构化、半结构化和非结构化数据；Value：数据价值密度相对较低，或者说是浪里淘沙却又弥足珍贵；Velocity：数据增长速度快，处理速度也快，时效性要求高；Veracity：数据的准确性和可信赖度，即数

2021-10-14 15:32:07 93

原创安装配置hadoop

大数据集群搭建（7）：安装配置hadoop：上传文件 /export/server解压 tar zxvf hadoop-3.3.0-Centos7-64-with-snappy.tar.gz配置环境变量 vim /etc/profileexport HADOOP_HOME=/export/server/hadoop-3.3.0export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin# 注意source /etc/profile

2021-10-13 15:59:47 323

原创 zookeeper安装配置

大数据集群搭建（6）：zookeeper安装配置：把zookeeper包传输到/export/server/目录下下载安装包、解压tar -zxvf zookeeper-3.4.6.tar.gzmv zookeeper-3.4.6 zookeeper修改环境变量，可选操作vi /etc/profileexport ZOOKEEPER_HOME=/export/server/zookeeperexport PATH=PATH:PATH:PATH:ZOOKEEPER_HOME/binsou

2021-10-13 15:22:13 88

原创虚拟机安装jdk

大数据集群搭建（5）：安装jdk：创建目录：/export/server #软件安装目录/export/software #安装包的目录/export/data #软件运行数据保存的目录/export/logs #软件运行日志mkdir -p /export/servermkdir -p /export/software mkdir -p /export/datamkdir -p /export/logs上传安装包到/export/

2021-10-13 11:54:36 170

原创编写分发文件脚本

大数据机器搭建（4）:编写分发文件脚本：进入环境变量目录：cd /binvim cswj#!/bin/bash#1.判断参数个数if [ $# -lt 1 ]then echo Not Enough Arguement! exit;fi#2.遍历集群所有机器for host in a1 a2 a3do echo ================== $host ================= #3.遍历所有目录，挨个发送 f

2021-10-13 11:28:05 113

原创集群机器间免密登录ssh

大数据集群搭建（3）：集群机器间免密登录：a1：ssh-keygenssh-copy-id a1ssh-copy-id a2ssh-copy-id a3a2重复a1的操作a2重复a1的操作a3重复a1的操作

2021-10-13 11:13:50 63

原创克隆虚拟机、配置克隆后的虚拟机、远程连接克隆后的虚拟机

大数据集群搭建（2）克隆虚拟机：单击右键a1，选择管理，选择克隆等待克隆同样操作克隆a3修改a2的ip和主机名：vim /etc/sysconfig/network-scripts/ifcfg-ens33修改IP地址为 192.168.10.201-重启网络服务：systemctl restart/start/stop/diable/enable network.servicevim /etc/hostname修改主机名为 a2重启 reboot

2021-10-13 10:49:01 236

原创修改ip、主机名，主机名和ip映射配置，关闭防火墙，远程连接

大数据集群搭建（1）修改ip、主机名：vim /etc/sysconfig/network-scripts/ifcfg-ens33修改IP地址为 192.168.10.200重启网络服务：systemctl restart/start/stop/diable/enable network.servicevim /etc/hostname修改主机名为 a1重启 reboot主机名和IP映射配置:vim /etc/hosts 找到主机地址映射文件 h

2021-10-12 22:08:42 332

原创新建虚拟机：

新建虚拟机：跟着图片操作即可：导入iso映像文件：打开虚拟机：设置root用户账号密码：密码为：123456设置用户用户名和密码：用户名：long密码：123456设置用户用户名和密码：用户名：long密码：123456[外链图片转存中…(img-AFzZYHX4-1634044192755)]然后等待安装...

2021-10-12 21:24:40 394

原创虚拟机的网络配置

虚拟机的网络配置：点击菜单中的编辑点击虚拟网络编辑器打开自己电脑上的网络配置，点击以太网点击属性

2021-10-12 20:11:25 92

原创 linux安装mysql、卸载mysql

Hive3安装Mysql安装卸载Centos7自带的mariadb[root@node1 ~]# rpm -qa|grep mariadbmariadb-libs-5.5.64-1.el7.x86_64[root@node1 ~]# rpm -e mariadb-libs-5.5.64-1.el7.x86_64 --nodeps[root@node1 ~]# rpm -qa|grep mariadb [root@node1 ~]#

2021-10-11 20:21:49 100

原创 linux高级命令（2）

Linux_day02今日课程学习目标1、掌握Linux用户、权限管理2、掌握Linux常用系统命令3、掌握服务器集群环境搭建4、了解shell编程今日课程内容大纲# Linux用户与权限管理用户、用户组及其管理文件权限 rwx su、sudo# 系统信息时间、日期进程磁盘使用情况、内存使用情况#linux集群环境搭建重中之重集群、分布式---->多台机器虚拟机克隆服务器基础环境准备 1、防火墙关闭 2、主机名hostname修改

2021-10-11 20:20:58 283

原创 linux高级命（1）

今日课程学习目标1、了解Linux操作系统发展介绍、安装配置2、掌握SSH原理机制、Linux文件上传下载3、掌握Linux常见文件系统操作命令使用4、掌握Vim编辑器基础使用今日课程内容大纲#操作系统概述#linux系统概述#vmware虚拟机虚拟网络+网络模式 Centos7系统安装 SSH免密登录非对称加密（私钥公钥）文件下载虚拟机的快照#Linux常用的基础命令文件系统的操作目录树搜索操作、解压缩管道#vi|vim编辑器打开新建、异常.

2021-10-11 20:19:51 253

原创金融风控-不均衡学习和异常检测

06_不均衡学习和异常点检测学习目标知道样本不均衡时的常用处理方式掌握SMOTE过采样的使用知道LOF算法的原理知道IForest算法的原理应用异常检测算法进行数据清洗1 样本不均衡简介通常分类机器学习任务期望每种类别的样本是均衡的，即不同目标值样本的总量接近相同。在梯度下降过程中，不同类别的样本量有较大差异时，很难收敛到最优解。很多真实场景下，数据集往往是不平衡的，一些类别含有的数据要远远多于其他类的数据在风控场景下，负样本的占比要远远小于正样本的占比样本不均衡举例

2021-10-11 20:16:49 336

原创金融风控-机器学习评分卡

五评分卡模型构建学习目标掌握KS值的计算方法知道评分映射方法知道XGBoost和LightGBM基本原理掌握使用lightGBM进行特征筛选的方法应用toad构建评分卡模型1 模型构建流程1.1 实验设计新的模型能上线一定要比原有方案有提升，需要通过实验证明冷启动业务初期成长期波动期策略调整新增数据源人工审核人工审核新旧模型对比新旧模型对比避免迭代模型新旧模型对比规则模型标准模型长短表现期对比稳定和波动人群线上模型、陪跑和标

2021-10-11 20:14:47 717

原创金融风控-特征评估与筛选

特征筛选学习目标掌握单特征分析的衡量指标知道 IV，PSI等指标含义知道多特征筛选的常用方法掌握Boruta,VIF,RFE,L1等特征筛选的使用方法1 单特征分析什么是好特征？从几个角度衡量：覆盖度，区分度，相关性，稳定性覆盖度采集类，授权类，第三方数据在使用前都会分析覆盖度采集类：如APP list （Android 手机 90%）授权类：如爬虫数据（20% 30%覆盖度）GPS （有些产品要求必须授权）一般会在两个层面上计算覆盖度（覆盖度 = 有数据的用户

2021-10-11 20:10:46 326

原创金融风控-特征构造

3 特征构造学习目标知道未来信息的概念，及处理未来信息的方法掌握从原始数据构造出新特征的方法掌握特征变换的方法掌握缺失值处理的方法1 数据准备1.1 梳理数据的内在逻辑关系种类一对一：一个用户有一个注册手机号一对多：一个用户多笔借款多对多：一个用户可以登录多个设备，一个设备可以有多个用户登录举例下图中，蓝色框为二月当期账单，红色框为订单[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eG8LxzLu-1633954039582)(img/

2021-10-11 20:09:41 118

原创金融风控-风控建模概述

风控建模概述学习目标知道信贷审批业务的基本流程知道ABC评分卡是什么，有什么区别知道风控建模的流程掌握评分卡模型正负样本定义方法知道如何构建特征，如何评估特征1 互联网金融风控体系介绍信贷审批业务基本流程四要素认证：银行卡持有人的姓名、身份证号、银行卡号、手机号互联网金融风控体系主要由三大部分组成：用户数据：用户基本信息、用户行为信息、用户授权信息、外部接入信息。数据采集会涉及到埋点和爬虫技术，基本上业内的数据都大同小异。免费的运营商数据安卓可爬的手机内部

2021-10-11 20:05:32 376

原创金融风控-风控报表

1 信贷业务逻辑1.1 信贷业务如何运行市场部门/风控部门/催收部门市场部门→获客新客转化/存量激活地推电销平台广告(抖音, 微信, 微博……)营销短信风控部门→筛选用户是不是目标客群要不要放款给多少额度给多少利率给多少期资金回收(催收部门)催收精细化运营市场, 风控, 催收各个环节添加运营手段市场→ 不同获客方式，不同人群是否在后期表现都一致存量用户召回→利率优惠，免息券风控→ 找到额度，利率的最佳平衡点催收→ 不同的客

2021-10-11 20:03:37 267

原创金融风控项目-# 相关业务介绍

金融风控相关业务介绍学习目标知道常见信贷风险知道机器学习风控模型的优势知道信贷领域常用术语含义1 信贷&风控介绍信贷业务，就是贷款业务，是商业银行和互联网金融公司最重要的资产业务和主要赢利手段通过放款收回本金和利息，扣除成本后获得利润。贷款平台预测有信贷需求用户的还款情况，然后将本金借贷给还款概率大的用户信贷业务中的风险控制：信贷业务中，使用信用来预支金钱，在小额贷业务中往往没有抵押物，那么贷款方就会承担一定风险（用户不还钱）风控就是对用户的信用风险进行管理与规避

2021-09-19 21:44:17 843

空空如也

空空如也