自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (4)
  • 收藏
  • 关注

原创 pandas读取外部数据---(4)使用Pandas读写操作txt文件

目录1、准备.txt的数据文件2、pandas.read_csv()语法:3、使用Pandas读取用英文逗号“,”分隔的.txt文件,sep=','可以省略4、使用Pandas读取其他分割符的.txt文件,sep='分隔符'写清楚5、使用Pandas读取.txt文件指定的行和列6、使用Pandas写入.txt文件1、准备.txt的数据文件其实pandas读写.t...

2019-12-31 20:50:37 13135

原创 pandas读取外部数据---(3)使用Pandas读写操作excel

1、准备工作,2、准备好excel数据表格,3、使用Pandas读取excel数据,4、Pandas读取指定(限定)行的excel数据,5、Pandas读取指定(限定)列的excel数据,6、Pandas读取同时指定行和列的excel数据,7、pandas处理Excel数据成为字典,8、pandas数据写入Excel文件,...

2019-12-30 23:39:49 6208 4

原创 pandas读取外部数据---(2)使用Pandas连接mysql、 读取及存储(写入)mysql数据

1、使用pandas连接mysql。2、使用Pandas连接mysql查询读取mysql数据。3、使用Pandas连接mysql 并插入数据。

2019-12-30 19:46:19 1210

原创 pandas读取外部数据---(1)使用pandas读取和写入csv文件

pandas.read_csv()语法及综合案例:1、使用pandas读取csv文件的全部数据:pd.read_csv("filepath",[encoding='编码'])2、使用pandas读取csv文件的指定列方法:usecols=[0,1,2,...]3、使用pandas读取csv文件的指定行方法:[skiprows=n],nrows=m4、使用pandas写入CSV文件df.to_csv(path_or_buf,[sep=’,’, na_rep=”, ....])

2019-12-30 17:52:03 7057

原创 Pandas的Series类型的介绍及常见的Series创建、索引、切片、修改的使用方法

2、Series的创建方式。# 使用列表,创建Series。# 自己指定index,和数据类型,创建Series。#通过字典创建Series(注意:字典中的键就是索引)。3、Series索引和值。3.1、通过索引获取单个元素的值。3.2、通过切片或索引获取多个元素的值。4.1、修改Series的values类型:Seriesname.astype(dtype)。4.2、修改Series的元素的值。

2019-12-30 15:53:24 3904

原创 Pandas介绍、安装及使用

目录1、Pandas介绍。2、Pandas数据类型(结构)。3、Pandas做数据分析的优点。4、Pandas的安装及引用。1、Pandas介绍。Pandas库基于Numpy库,提供了很多用于数据操作与分析的功能。 Numpy的特长并不是在于数据处理,而是在它能非常方便地实现科学计算 科学计算方面Numpy是优势,但在数据处理方面DataFrame就更胜一筹...

2019-12-29 21:20:18 3553

原创 Numpy介绍、安装、使用(包含numpy教程详解)

一、Numpy介绍Numpy官网:https://numpy.org/ 。NumPy(Numerical Python的简称),是科学计算基础的一个库,它提供了一个高性能的多维数组对象ndarray,以及大量的库函数和操作,可以帮助程序员轻松地进行数值计算,广泛应用于机器学习模型、图像处理和计算机图形学、数学任务等领域。提供了大量关于科学计算的相关功能,例如,线性变换,数据统计,随机数生成等...

2019-12-26 12:29:12 2094

原创 ETL工具Informatica开发流程 综合应用 电信通话计费系统开发项目案例10

一、准备数据源在Oracle数据库中创建 OLTP用户导入源数据 oracle_oltp_data.sql在Mysql数据库中创建表,插入产品相关数据 mysql_product_data.sql用户表ods_cust_info(oltp) 地区表department(oltp)通话表call_record(oltp) 产品表product(mysql)二、需...

2019-12-24 20:04:13 806

原创 Informatica使用操作流程--缓慢变化维 案例9

一、缓慢变化维:表示源表中的数据被更新,我们开发Informatica的缓慢变换维,让目标表中的数据跟着更新(原有的做更新,没有的做插入)。二、案例:需求:--源表(oracle) -----> 目标表--OLTP(oracle的oltp用户下) -----> EDW层(oracle的edw01用户下)--depart...

2019-12-23 15:34:07 1034 1

原创 Informatica使用操作流程--增量抽取 案例8

目录一、增量抽取:二、案例:1、目标:开发增量抽取 (业务系统OLTP--->EDW )2、操作流程步骤:一、增量抽取:ETL 的开发流程:业务系统OLTP--->操作型数据存储ODS----->清洗到数据仓库EDW----->数据集市(建模/挖掘/分析)DM----->可视化。增量抽取,表示当业务系统的数据随着时间的推移是变动的(...

2019-12-23 00:07:03 1573

原创 Informatica使用操作流程--Join 组件(同构关联用Source Qualify组件、异构关联用Joiner组件) 使用 案例7

目录一、joins组件说明二、同构Source Qualify组件演示:三、异构Joiner组件(连接器转换)演示一、joins组件说明对异构数据进行关联(同构关联用Source Qualify组件)使用joiner组件(也叫联接器转换)。类似于SQL 中的Join语句下面演示主要功能步骤,不知道详细操作流程的去看这篇文章:https://blog.csdn.net/w...

2019-12-21 22:46:22 1825

原创 Informatica使用操作流程--Router(由器器)、排序、序列 使用 案例6

一、需求:将oracle的scott用户下的emp表,按照部门编号分别存储到edw层,并且各部门按照薪资降序排列后生成序列。二、操作流程:三、操作主要步骤:1、定义源,获取源。2、定义3个目标表,分别都生成并执行sql。到数据库查验表结构的生成。3、创建映射,使用路由器、排序、序列组件,连接源、组件、目标4、创建任务,...

2019-12-21 16:52:47 780 1

原创 Informatica使用操作流程--存储过程调用、序列生成器 使用案例5

目录一、需求:二、操作:1、在创建存储过程:连接oracle的scott用户2、Informatica开发ETL过程2.1、连接源,并获得源2.2、定义目标表EDW_EMP_DEPT_COUNT,生成并执行sql2.3、创建映射M_EDW_EMP_DEPT_COUNT,使用序列、存储过程组件。2.4、创建任务2.5、[创建]连接工作流2.6、M端工作流调度与...

2019-12-20 18:16:48 3549

原创 Informatica使用操作流程--过虑器组件、 排序组件 案例4

一、需求:抽取ORACLE数据库SCOTT用户下的emp表-->EDW层,要求如下抽取员工表数据取部门编号为30的员工信息,按工资排序 显示员工编号,姓名,工资,奖金,部门编号二、开发流程:1、连接源,并获得源2、创建目标EDW_emp_deptno30,拖拽原表到Tngat Levigner,修改表名和字段,然后生成并执行sql3、创建映射M_EDW...

2019-12-20 16:16:17 522

原创 Informatica使用操作流程--聚合、表达式转换、查找、排序组件的使用 案例3

目录一、需求:二、开发操作①定义源②定义目标③创建映射--聚合组件​--表达式转换器组件​--查找组件​④定义任务⑤创建工作流⑥工作流调度监控⑦查验数据三、修改操作--排序器转换​组件一、需求:将oracle数据库的scott用户源表items 直抽至 EDW层 EDW_items。数据存储到oracle的edw0...

2019-12-19 01:24:33 1705

原创 Informatica使用操作流程及Expression(表达式转换)案例2

操作流程:①定义源<Odbc01_oracle:employees>;②定义目标<EDW_EMPLOYEES>;③创建映射<M_ORACLE_EDW01_employees>;④定义任务<S_ORCL_EDW01_employees>;⑤创建工作流<W_ORCL_EDW01_employees>;⑥工作流调度监控;⑦查验数据;

2019-12-18 20:34:25 1555

原创 Informatica使用工作流程及案例1

一、Informatica客户端介绍:1、连接登录。2、R、D、W、M客户端作用。3、操作执行流程。二、入门案例操作。1、需求:2、操作:2.1、先在oracle数据库创建一个EDW层用户。2.2、先连接R,并创建文件。2.3、连接D,并定义源、连接源。2.4、D:定义目标。2.5、D:定义好的目标表的表结构生成到目标数据库EDW层。 2.6、D:创建映射。2.7、W:定义任务。2.8、W:创建工作流。2.9、W:执行工作流。2.10、M:执行监测。

2019-12-18 17:31:58 3416

原创 数据仓库(ETL)、数据仓库工具Informatica介绍

数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support)【将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节】。Informatica平台是一套完善的技术,可支持多项复杂的企业级数据集成计划,包括:企业数据集成、大数据管理、数据质量、数据治理、主数据管理、数据安全和云数据集成等。

2019-12-18 00:26:07 4368

原创 Oracle的sql基本语法总结(3)-- Oracle synonym 同义词的创建、查看、删除、作用

一、Oracle synonym 同义词。语法结构:案例解析:--基础准备与说明:synonym 同义词创建:创建同义词补充说明(远程操作)。二、Oracle synonym 同义词作用。

2019-12-17 19:50:18 3244

原创 windows系统基于Oracle数据库安装Informatica9.1的安装步骤、连接客户端使用、重启服务

ETL工具Informatica安装步骤一、准备工作。二、服务端安装。三、客户端安装。四、连接使用。1、连接本机的服务器。2、连接其他服务器。五、重启服务。

2019-12-17 13:53:21 2857 3

原创 Oracle、PL/SQL、Informatica安装包及安装教程

...

2019-12-17 10:54:44 1530 1

原创 Oracle的sql基本语法总结(2) -- 运算符、查询(distinct、where条件运算、交并补集合运算、连接查询、子查询)、伪列、限定查询结果行数、函数

一、oracle运算符:(1) 算术运算符,(2)关系运算符,(3)逻辑运算符,(4)字符串连接符|| 。二、oracle常见查询:(1)DISTINCT语法结构,(2)where条件,(3)集合运算,(4)连接查询,(5)子查询。三、Oracle的伪列:(1)rowid、rownum 伪列使用,(2)限定查询结果行数显示。四、Oracle函数:(1)字符型函数,(2)日期函数,(3)数值型函数,(4)转换函数,(5)聚合函数......

2019-12-16 17:46:33 1545 3

原创 Oracle的PL/SQL编程语言介绍、语法、循环、异常处理、游标、存储过程

一、什么是PL/SQL。1、PL/SQL基本语法及实例用法:2、PL/SQL 循环结构。3、PL/SQL 异常处理。二、游标。三、存储过程。

2019-12-16 00:02:20 489

原创 Oracle 实操总结(1)--数据迁移备份、行列转换、数据合并、递归、分析(窗口)函数

一、Oracle--数据迁移备份。oracle数据导入导出的方法:(1)、命令的方式导入与导出。(2)、SQLPLUS导入,执行sql脚本(增删改)。(3)、PL/SQL客户端导入与导出。二、Oracle--case when 行转列。三、Oracle数据合并(存在则更新,不存在就插入)。四、Oracle递归用法。五、分析(窗口)函数。1、分析函数语法。2、常见分析函数的使用说明。

2019-12-15 12:33:55 1352

原创 Oracle的sql基本语法总结(1) -- 创建、插入、查询备份、更新、删除

一、SQL语句介绍。二、Oracle字段数据类型。三、创建表。四、添加约束。五、插入数据。(1)、单条数据插入。(2)多条数据插入。(3)查询结果的备份(存储)。(4)查询并插入他表。六、简单查询。七、更新数据。八、删除(清空)表。

2019-12-13 21:53:43 502

原创 Oracle介绍、安装、客户端工具使用、服务、用户

一、Oracle介绍:1、简介,2、版本,3、四大特点,4、体系结构。二、Oracle 安装。三、客户端工具使用:1、SQL Plus工具,2、SQL*Plus 命令行工具,3、PL/SQL Developer 工具。四、服务:1、启动服务,2、服务实例名设置。五、用户:1、以系统管理员登陆数据库,2、解锁系统自带用户scott,3、用户创建(删除),4、授权语句,5、查看用户的权限或角色,6、取消用户权限,7、修改用户密码、锁定状态,8、创建表空间。

2019-12-12 18:18:41 1426

原创 SQL语句--mysql排名、分组后组内排名、取各组的前几名

一、整体排名(3种)。-- 普通排名:从1开始,顺序往下排;-- 并列排名:相同的值是相同的排名,不用占空位;-- 并列排名:相同的值是相同的排名,需要占空位;二、分组后组内排名(3种)。--分组普通排名:顺序排名;-- 组内并列排名:相同的值是相同的排名,不需要占空位;-- 组内并列排名:相同的值是相同的排名,需要占空位;三、分组后取各组的前N名.

2019-12-11 15:09:35 4479

原创 Hive 案例(1)--- 影评案例

影评案例知识点:1、数据清洗、特殊分隔符数据上传hive;2、多表连接查询;3、分组查询;4、组内排名,窗口函数;5、行列转换查询;6、分段查询;7、查询并存储;......

2019-12-10 16:16:05 462

原创 Hive的特殊分割符处理、JSON 解析方法、linux文件数据清洗之sed命令

特殊分割符处理:create table tname(...) row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe' with serdeproperties('input.regex'='(.*)\\|\\|(.*)','output.format.string'='%1$s %2$s') stored as textfile;JSON解析函数get_json_object(...);linux文件数据清洗之sed命令.

2019-12-09 17:15:12 848

原创 Hive的窗口函数

窗口函数是用于分析用的一类函数,要理解窗口函数要先从聚合函数说起。 大家都知道聚合函数是将某列中多行的值合并为一行,比如sum、count等。 而窗口函数则可以在本行内做运算,得到多行的结果,即每一行对应一行的值。 通用的窗口函数可以用下面的语法来概括:分析函数 over([partition by 列名] [order by 列名 [rows between 开始位置 and 结束位置]])

2019-12-08 22:39:52 1170

原创 Hive的DQL(数据查询及优化)

目录一、练习数据二、单表查询三、多表连接查询四、综合练习题五、查询优化一、练习数据7369 SMITH CLERK 7902 1980-12-17 00:00:00 800.00 207499 ALLEN SALESMAN 7698 1981-02-20 00:00:00 1600.00 300.00 307521 WARD SALESMAN 7698 1981...

2019-12-06 18:54:43 471

原创 Hive练习(2)---累计值的计算、列转行、行转列、截取字段的经典案例

目录第一类:累计值的计算第二类:列转行 case ... when.... [collect_list和collect_set]第三类:行转列(Lateral View和UDTF函数(explode、split)结合使用)第四类:截取字段substr(...,...,...)第一类:累计值的计算第一题:根据下列数据,现要求出:每个用户截止到每月为止的最大单月访问次数、累计...

2019-12-05 16:37:10 2061

原创 Hive 的DDL数据定义(增删改)

Hive 的DDL数据定义。hive数据库增删改查,hive表(内部表、外部表、分区表、分桶表)的增改删。

2019-12-04 20:13:24 464

原创 Hive数据类型、集合(复合)数据类型、类型转化

一、Hive数据类型Hive数据类型 java数据类型 长度 有符号整数最值 / 其他示例 / 说明 tinyint byte 1byte(1个字节8位) 有符号整数 [-128,127] smallint short 2byte(2个字节16位)有符号整数 [-32768,32767] int int 4byte(...

2019-12-03 17:49:48 711

原创 Hive常见属性配置--数据仓库位置、hive.cli查询后信息显示、运行日志信息、参数配置的方式

1、hive数据仓库位置配置;Default 数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse 路径下。2、hive.cli查询后信息显示 配置;实现显示当前数据库,及查询表的头信息配置。3、 Hive的log默认存放在/tmp/hdp/hive.log目录下(当前用户名下)。4、3种参数配置的方式(修改配置文件、启动命令时添加hive -hiveconf param=value、启动和后set 临时赋值修改)

2019-12-03 13:57:16 770

原创 Hive 的概念、应用场景、安装部署及使用、数据存储 、table(内部表)和external table(外部表)、partition(分区表)和bucket(分桶表)

目录1、Hive 的概念2、Hive 的特点3、Hive 和 RDBMS(关系型数据库) 的对比4、Hive 和 HBase 的差别5、Hive 架构6、Hive安装与使用方法介绍7、Hive 的数据存储8、table(内部表)和external table(外部表)9、partition(分区表)和bucket(分桶表)1、Hive 的概念1...

2019-12-02 18:22:08 1356

tips.txt为python数据分析案例数据

python数据分析案例数据 主要用于本人博客的部分文章案例数据使用。 单变量的样本分布检验(python3) 探索变量间关系 ....... 等文章的案例数据

2020-02-08

instantclient_11_2.rar

instantclient_11_2.rar应用于Python(pandas)连接Oracle数据库时报错"64-bit Oracle Client library cannot be loaded 解决办法所需包。 错误:Python连接Oracle数据库时报错"64-bit Oracle Client library cannot be loaded: "D:\oracle\product\10.1.3\db_1\BIN\oci.dll 原因:Python3.x版本64位   oracle10g /11g... 32位  sqlplus 32位,连接后,报错如上。需要一个64位的的oci.dll windows7/8/10 解决办法所需包 instantclient_11_2.rar

2020-01-02

numpy完全详解--jalen.pdf

1、NumPy介绍; 2、NumPy安装使用; 3、数组的创建; 3.1、概述; 3.2、基本创建方式; 3.3、其他创建ndarray的方式1:函数和文件; 3.4、其他创建ndarray的方式2:随机函数; 4、数组输出; 4.1、输出方式; 4.2、打印省略; 5、数组(ndarray)与列表(List); 5.1、应用对比 ; 5.2、矢量化计算; 5.3、广播机制; 6、相关属性与操作; 7、NumPy中的常数; 8、数据类型; 8.1、概述; 8.2、类型转换; 9、改变形状; 10、数组扁平化; 10、索引与切片; 10.1、概述; 10.2、切片; 10.3、索引; 11、数组的存储顺序; 12、NumPy的各种操作运算; 12.1、基本运算; 12.2、指定轴; 12.3、通用函数; 12.4、统计函数; 12.5、增删改; 12.6、交集并集差集; 12.7、链接和拆分; 12.8、判断; 12.9、三目运算符; 12.10、去重; 12.11、排序; 12.12、矩阵乘积; 12.13、复制和视图; 12.14、总结;

2019-12-29

numpy-100_100_Numpy_exercises(English version).pdf

NumPy 100 exercises, let you learn more about NumPy.

2019-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除