Python爬取中国银行外汇牌价(爬虫 + PyFlux简单预测分析)--(一)

最新推荐文章于 2024-05-12 09:48:24 发布

weixin_34303897

最新推荐文章于 2024-05-12 09:48:24 发布

阅读量2.8k

点赞数 1

文章标签：爬虫 python git

原文链接：https://juejin.im/post/5be2c5b26fb9a049f153adfd

版权

项目仓库

项目地址: github.com/sunhailin-L…
开发者: sunhailin-Leo

项目简介

爬虫的核心代码就移步去Github仓库上看吧~
项目功能简介:
1. 获取中国银行外汇牌价的汇率(本项目模板以港币为Base)
2. 获取时间可以自定义(设置起始时间不建议跨度太长)
3. 爬虫数据支持存储在MySQL、MongoDB和CSV中(通过cmdline_start_spider的启动命令参数进行控制)
4. 更新了增量爬取模式(2018-11-12日)
爬取来源： srh.bankofchina.com/search/whpj…

爬取目的:
1. 纯属一片好奇心想去预测未来的几天的汇率走向
2. 顺便做一做可视化
项目技术点:
1. Scrapy获取源代码解析数据

2. selenium chrome headless 模式获取页码 ( 需要安装selenium以及配置chrome driver)

* 由于页码是通过JS进行加载的，所以暂时解决办法用selenium无头模式进行渲染(后期改为用Scrapy-splash)
复制代码

讲讲数据方面

以下数据使用的是 2018-01-01 ~ 2018-11-06日的汇率数据(去重之后约48000条数据)

数据探索:
- 中行网站上有四种不同的牌价(现汇买入价,现钞买入价,现汇卖出价,现钞卖出价,中行折算价), 中行折算价暂时先不考虑。
  - 现汇买入价——是指账户内的外汇通过结汇兑换成人民币的银行结算价。
  - 现钞买入价——是指外币现钞结汇，兑换成人民币的银行结算价。
  - 现汇卖出价——是指购买外汇对外付款，人民币兑换外币的银行结算价。
  - 现钞卖出价——是指购买外币现钞，人民币兑换外币的银行结算价。
- 要考虑去香港买买买的话就可以用现汇卖出价或者现钞卖出价进行数据可视化和数据预测了。
- 本人选择了现汇卖出价，接下来的数据都是用现汇卖出价进行可视化并统计分析了(其他类型只是换了列数据而已)

数据清洗:
- 在页面上看或者从抓取回来的数据很容易看出会有部分重复数据(不知道中行为啥允许重复数据的出现)
- 清洗手段:(我选择了后者,在不给数据库施压的情况下,后者相对比较仁慈)
  - MySQL：SELECT DISTINCT语句
  - Pandas: Dataframe.drop_duplicates(根据发布时间保留第一个值就ok了)
- 代码大致如下:
```
header = ['现汇买入价', '现钞买入价', '现汇卖出价', '现钞卖出价', '中行折算价', '查询时间']

# dataframe配置
# 显示所有列
pd.set_option('display.max_columns', None)
# 显示所有行
# pd.
```

最低0.47元/天解锁文章

weixin_34303897

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Python爬取中国银行外汇牌价(爬虫 + PyFlux简单预测分析)--(一)

项目仓库项目地址: github.com/sunhailin-L…开发者: sunhailin-Leo项目简介爬虫的核心代码就移步去Github仓库上看吧~项目功能简介:获取中国银行外汇牌价的汇率(本项目模板以港币为Base)获取时间可以自定义(设置起始时间不建议跨度太长)爬虫数据支持存储在MySQL、MongoDB和CSV中(通过cmdline_start_spi...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。