ETL
JRighte
这个作者很懒,什么都没留下…
展开
-
Windows10 下安装spark单机版
如同往常一样安装spark也出了很多问题,好在一上午终于搞定spark 基于java,所以首先检查java是否安装,注意java安装路径最好不要出现空格,虽然网上也有解决方法,但是我的机器上没有解决问题。一 检查java安装 命令行输入java -version,一般会有下面这种结果C:\Users\yournam>java -versionjava versi...原创 2019-03-01 12:03:11 · 6598 阅读 · 1 评论 -
Pyspark ValueError: Cannot run multiple SparkContexts at once 解决之道
pyspark执行可能就遇到问题ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[])其实蛮好解决的将原来的from pyspark import SparkContextfrom pyspark import Sp...原创 2019-03-04 11:13:53 · 612 阅读 · 0 评论 -
ETL 之kettle 8下载
最近了解到ETL利器kettle,但是国内下载都非常慢,国内有个镜像网站但是只提供kettle 7及以下版本,这里提供kettle 8 版本地址链接:https://pan.baidu.com/s/1iiMq4tI3vzPTkjuAplczgA提取码:ga3l国内镜像http://mirror.bit.edu.cn/pentaho/Data%20Integration/...原创 2019-03-19 17:00:18 · 10384 阅读 · 3 评论 -
postgresql 11.2 下载
最近开始搞postgresql 从官网下载发现比较慢 所以在此分享百度网盘下载链接:链接:https://pan.baidu.com/s/10OFa29URP8fTRgjC6kPljw提取码:laug原创 2019-03-23 23:01:50 · 3882 阅读 · 2 评论 -
sqoop 从Oracle抽数 出现 ORA-00904 xxx invalid identifier
对于Oracle 出现ORA-00904 xxx invalid identifier 一般来数是因为 数据类型不匹配引起的,我在工作中出现此问题是抽数sql将number类型的id放在了最后做字符拼接,像这样然后把抽数ID字段的顺序换一下就可以了!!祝你工作顺利呦。...原创 2019-08-30 15:22:19 · 614 阅读 · 0 评论 -
sqoop抽数数据量少于原表情况的可能原因
今天用sqoop从Oracle数据库抽数,做数据核对的时候发现抽到的数据量少于Oracle数据中的数据量,后来检查发现是因为抽数语句中的split-by field 关键字不是主键,有空值,一般来数split-by field 字段都是主键,但是本次特殊情况,在前几次的抽数过程中出现 split-by field 字段只能是数字类型但是目标表的主键是string类型,所以找了其他的数字...原创 2019-09-01 10:09:50 · 986 阅读 · 2 评论 -
使用pandas对数据进行清洗
目录:数据表中的重复值 duplicated() drop_duplicated() 数据表中的空值/缺失值 isnull()¬null() dropna() fillna() 数据间的空格 查看数据中的空格 去除数据中的空格 大小写转换 数据中的异常和极端值 replace() 更改数据格式 astype() to_d...原创 2019-09-01 10:10:55 · 1120 阅读 · 0 评论 -
df.describe() 用法概述
python数据清理方面一般都会用到df.describe()这个函数,但其实这是可以传参数的。比如以泰坦尼克号生存预测为例df =pd.read_csv('./train.csv')df.describe()df.describe(include='O')# 大写英文字母 Odf.describe(include='all')可以看出默认是描述数字类型的属...原创 2019-09-08 14:50:02 · 28640 阅读 · 2 评论