Hive 读取外部数据时跳过文件行首和行尾
hive在通过读取文件的方式向表中插入数据时,往往需要跳过一些与数据无关的行,比如下面的csv文件:
csv文件
transaction_id,store_id,review_score
7430,1,5
912,3,3
4203,5,3
2205,4,4
5166,5,5
2755,5,
2036,5,5
5712,1,2
5296,5,4
6964,4,2
6460,2,
第一行是不需要的内容.通过在创建表的时候可以设置向表中插入数据时跳过指定行如下建表语句:
create table
create table(id int ,name string)
row format delimited
fields terminated by ','
tblproperties ("skip.header.line.count"="1");
tblproperties (“skip.header.line.count”=“1”) 是设置在读取文件插入数据时跳过文件的第一行,如果是行尾用
tblproperties ("skip.header.line.count"="1", "skip.footer.line.count"="2");
这样就是跳过首行与末尾两行.