Hive分析英国房产价格数据

本文使用的数据集下载链接: https://download.csdn.net/download/shangjg03/88478086

1.准备数据

该数据集包含有关英格兰和威尔士自1995年起到2023年的房地产价格的数据,超过2800万条记录,未压缩形式的数据集大小超过4GB,在ClickHouse中需要约306MB。

2.hive中建表

create table uk_price_paid(
id string,
price int,
trans_date date,
postcode string,
type string,
is_new string,
duration string,
addr1 string,
addr2 string,
street string,
locality string,
town string,
district string,
county string,
category string
)
row format delimited fields terminated by '#' lines terminated by '\n' stored as textfile;

ed9f837c38fb4ca082624afdfb003dc5.png

查看表

eafe565972a2420b9269c90311bcb1a8.png

3.数据预处理

由于数据中有部分字段包含逗号‘,’,所以数据要预处理一下。

# 查看文件中包含某个字符
cat pp-complete.csv|grep '#'
# 全文修改一个字符到另一个字符
sed 's/","/"#"/g' pp-complete.csv > pp-complete-ext.csv
sed 's/"#"/#/g' pp-complete.csv > pp-complete3.csv

4. 导入数据

load data local inpath '/home/datasets/pp-complete4.csv' into table uk_price_paid;

导入成功。

3adcfb3d9a09466ebfcbce91274e64bf.png

查看数据

select * from uk_price_paid limit 10;

b0f3c915d4fb487991c3c4061ce32b3f.png

5. 使用数据

5.1 统计数据总量

select count(*) from uk_price_paid;

a0f935d075b24460b72f225653919f75.png

5.2 统计每年的平均价格

SELECT year(trans_date) year1, round(avg(price)) price from uk_price_paid GROUP BY year(trans_date) ORDER BY year(trans_date);

a81fbc66030349ecbe8731b97e13648a.png

5.3伦敦房产每年的平均价格

SELECT year(trans_date) as year, round(avg(price)) AS price FROM uk_price_paid WHERE town = 'LONDON' GROUP BY year(trans_date) ORDER BY year(trans_date);

1cb4201c2b3c48448365b4f8ec9cb57a.png

5.4 2020年之后最昂贵的10个街区

SELECT town, district, count() as c, round(avg(price)) AS price
FROM uk_price_paid
WHERE date >= '2020-01-01'
GROUP BY town, district
HAVING c >= 100
ORDER BY price DESC
LIMIT 10;

2e82229875894d0b962f4feaa741afe8.png

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shangjg3

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值