S0-DD-大数据
Hadoop安装和一些基本的配置及使用问题汇总
青鸟遇鱼
一个学废了的DD·—·^_^
展开
-
Kettle·抽数工具使用整理
Kettle·抽数工具使用整理kettle 使用组件的使用kettle 使用下载地址:kettle5.0: https://download.csdn.net/download/qq_43308318/85231179kettle8.0: https://download.csdn.net/download/qq_43308318/85232282解压安装包将mysql驱动jar包放到kettle目录下,注意驱动版本 mysql-connector-java-5.1.12-bin.jar点击原创 2022-02-27 14:32:32 · 337 阅读 · 0 评论 -
Talend抽数工具使用整理
@[TOC](Talend抽数工具使用整理)## 使用talend 创建一个作业步骤流程如下:--首先配置作业中使用到的数据库连接(Hive组件:tHiveConnection、oracle组件:tDBConnection、impala组件:tImpalaConnection)和表的对象(使用tjava组件)最后还需要建立一个警告(警告组件tWarn)用来捕获作业中的异常消息日志1.先建立tPrejob(是一个开始组件)组件 用来触发需要执行的任务作业2. .……3.后置处理:tPostjob组原创 2022-02-27 11:03:49 · 3723 阅读 · 0 评论 -
数据仓库的概述
1. 数据仓库是面向主题的 2. 数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据, 3. 提供特定主题的类名视图。数据仓库层级数据运营层ODS数据运营层:Operation Data Store 数据准备区,也称为贴源层。数据源中的数据,经过抽取、洗净、传输,也就是ETL过程之后进入本层。该层的主要功能:ODS是后面数据仓库层的准备区为DWD层提供原始数据减少对业务系统的影响。原创 2023-05-08 18:07:04 · 627 阅读 · 0 评论 -
kettle9.1安装配置
1. 安装java环境,jdk8-251测试可用(对jdk版本有要求,已踩坑)[jdk8-251](https://download.csdn.net/download/qq_43308318/85941740?spm=1001.2014.3001.5503)3. 下载kettle9.1版本(最好是从官网下载)4. 编辑kettle启动文件spoon.bat ```shellif "%PENTAHO_DI_JAVA_OPTIONS%"=="" set ......原创 2022-07-11 11:04:03 · 2749 阅读 · 1 评论 -
MySql·使用shell远程导出数据
mysql数据导出到csv文件原创 2022-06-24 10:45:11 · 2459 阅读 · 0 评论 -
Linux·搭建Hadoop环境
拉取镜像启动容器以上参数说明:进入容器; 启动cloudera-maneger本机修改host,添加映射本地浏览器访问: http://quickstart.cloudera:7180 进入CDH管理界面账号密码: cloudera/cloudera原创 2022-06-09 22:31:45 · 150 阅读 · 0 评论 -
Linux·安装Kettle
上传kettle压缩包到linux解压安装包给相应的执行文件赋权linux下启动kettle从命令行直接启动图形桌面环境设置默认启动到图形界面卸载参考博文: 详细原创 2022-06-09 22:00:28 · 3010 阅读 · 4 评论 -
Etl同步作业优化
## Etl同步作业优化 ·---···随着开发过程中实现的功能越来越多,算法越来越复杂,需要处理的数据也是越来越多,每次ETL过程所需要的时间不断增长,无法满足每半小时同步一次的需求。没办法减少需求和数据量,只能优化解决。--- ···开始优化之前先分析了一下整个ETL过程。发现大致可以分为两类操作。一类操作是直接从数据源拷备数据到目的数据库,一类是从数据源获得原始数据在ETL过程中进行计算再把结果存到目的数据库中。---···从传输的数据量来看直接拷备的部分数据量比较小,需要原创 2022-03-16 00:15:03 · 602 阅读 · 0 评论 -
Informatica抽数工具使用整理
Informatica抽数工具使用整理待修定补充……原创 2022-03-14 22:38:50 · 725 阅读 · 0 评论 -
Hadoop-Hive使用笔记
## Hadoop hadf存储命令:`Hadoop fs -ls /dir`本地数据文件插入hive表中 (注:文件要是utf-8格式的)1.追加到表中```sqlhive> LOAD DATA LOCAL INPATH '/home/edgeuser/pake/20210602/mm.txt' INTO table S11.ld_cust_mpartition(end_dt = '20210227') --插入到指定分区```2.覆盖到表中```sqlhive> LOA原创 2022-03-05 11:21:39 · 2482 阅读 · 0 评论 -
Sqoop查询与抽取Teradata数据库中的数据
@[TOC]( Teradata数据库)## 1.使用sqoop查看数据库中有哪些表```sql查看oracle数据库中有哪些表sqoop list-tables --connect jdbc:oracle:thin:@20.10.1.21:1521/ccb \--username wws\--password w0210 \查看teradata数据库中有哪些表sqoop list-tables --connect jdbc:teradata://20.10.11.48/CLIENT_原创 2022-03-05 11:32:34 · 2834 阅读 · 0 评论 -
Oracle数据库中使用Shell对数据表导出与导入
@[TOC](Oracle数据库中使用Shell对数据表导出与导入)## 使用Shell对Oracle数据表进行导出**shell命令如下:**```shell#!/bin/shexport ORACLE_BASE=/home/oracle/app/oracleexport ORACLE_HOME=$ORACLE_BASE/product/11.2.0/dbhome_1export PATH=$PATH:$ORACLE_HOME/bin:.export ORACLE_SID=orcl#e原创 2022-03-12 22:22:56 · 4567 阅读 · 0 评论