ETL
Cryueh
这个作者很懒,什么都没留下…
展开
-
Python_Pandas的ETL数据处理方法
Python_Pandas的ETL数据处理方法一、数据加载与导出1. read_csv数据加载2. to_csv写入文件并导出二、数据清洗1. 处理缺失值1. info()发现缺失值2. dropna()丢弃缺失值3. fillna()填充缺失值2. 处理无效值describe()检测无效值3. 处理重复值1. duplicated()发现重复值2. drop_duplicates()删除重复值三、数据过滤query()数据过滤四、数据转换1. 应用apply与映射map2. replace()替换3. 字原创 2020-11-25 14:22:48 · 1297 阅读 · 0 评论 -
Pandas常用函数
Pandas常用函数一、导入数据导入Pandas包和打印版本号import pandas as pdpd.__version__从列表创建s = pd.Series([0,1,2,3,4])s从字典创建s = pd.Series({'a':1,'b':2,'c':3,'d':4,'e':5})s从Numpy数组创建DataFrameimport numpy as nps = pd.DataFrame(np.random.randn(3,4), index=pd.date_ra原创 2020-11-25 14:24:11 · 575 阅读 · 0 评论 -
MySQL事务和存储过程
1.事务1.1 存储引擎数据库存储引擎是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建、查询、更新和删除数据。不同的存储引擎提供不同的存储机制、索引技巧、锁定水平等功能,使用不同的存储引擎,还可以获得特定的功能。Mysql的核心就是存储引擎。常见存储引擎InnoDB是事务型数据库的首选,执行安全性数据库,行锁定和外键。mysql5.5之后默认使用。MyISAM插入速度和查询效率较高,但不支持事务。MEMORY将表中的数据存储在内存中,速度较快。查看存储引擎原创 2020-11-21 00:03:30 · 984 阅读 · 0 评论 -
Shell脚本编程大数据ETL方向
Shell脚本编程大数据ETL方向一、Shell概述二、Shell解析器三、Shell脚本入门四、Shell变量1. 系统变量2. 自定义语法3. 特殊变量:$n4. 特殊变量:$#5. 特殊变量:∗、*、∗、@6. 特殊变量:$?五、运算符六、条件判断七、流程控制1. if判断:2. case语句:3. for循环:4. while循环:八、read读取控制台输入九、函数1. 系统函数2. 自定义函数十、Shell工具(重点)1. cut剪切数据2. sed流编辑器3. awk文本分析4. sort排序十原创 2020-11-20 20:05:18 · 1662 阅读 · 0 评论