【超详细】Python金融应用之爬虫(四）

Python_P叔

已于 2024-01-05 17:54:41 修改

阅读量916

点赞数

文章标签： python 金融爬虫

于 2023-11-09 09:58:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Saki_Python/article/details/134304417

版权

本文详细介绍了Python金融爬虫的基础知识，包括URL、F12开发者工具、User Agent等概念，以及如何使用requests和BeautifulSoup库进行网页抓取。通过实例演示了爬虫的步骤，包括获取HTML信息、数据解析、数据处理，并提到了去除数据中的逗号和处理重复行的方法。此外，还提及了pyecharts用于数据可视化，并分享了不同设备的User Agent示例。

摘要由CSDN通过智能技术生成

//

- 前言 -

◆ ◆ ◆ ◆

由于爬虫涉及较多网络专用术语，而小咖也仅是单纯一金融民工，因此这里就直接将网络上对于这些关键术语的定义展示给大家，如果感兴趣大家可以自行深度学习，而小咖的Python系列将主要专注于各类python工具的金融应用。

1、爬虫：是一个可以自动化抓取网页、app内容的工具。其中，我们将讲到的是目前应用最广泛的搜索引擎网络蜘蛛，在python中录入网址既可以获取网页数据。

2、URL：是统一资源定位符，对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。URL的格式由三部分组成：

（1）第一部分是协议：http/https/ftp/ws等等。

（2）第二部分是存有该资源的主机IP地址(有时也包括端口号)，简单说就是网站的域名。

（3）第三部分是主机资源的具体地址，如目录和文件名：即网站的二级目录和信息列表页、资源页等等。

3、F12：在网页界面点击F12后会出现开发者工具，我们可以通过F12找到所需数据及其节点。主要模块为：

Elements：可以查看当前文档的DOM信息

Console：查看调试，也可直接写JS代码

Source：查看当前资源文件的（CSS,JS,IMAGE）

Network：查看网络请求

4、User Agent：User Agent的中文名为用户代理，简称UA，它的信息包括硬件平台、系统软件、应用软件和用户个人偏好等。有一些网站不喜欢被爬虫程序访问，所以会检测连接对象，如果发现是爬虫程序便会拒绝访问。因此，我们可以通过设置User Agent的来隐藏身份继而使得程序正常运行。

User Agent存放于Headers中，服务器就是通过查看Headers中的User Agent来判断是谁在访问。

5、爬虫相关库：

在Python3中，可以使用urllib.request和requests进行网页爬取。urllib库是python内置的，无需额外安装。而requests库是第三方库，需要自己安装。

**Requests库：**requests实现了HTTP协议中绝大部分功能，它提供的功能包括Keep-Alive、连接池、Cookie持久化、内容自动解压、HTTP代理、SSL认证、连接超时、Session等很多特性，最重要的是它同时兼容python2和python3。安装方法：

pip install requests

**urllib库：**同样可以用来处理http请求，但是相较而言requests库更加简洁且容易理解，因此这里暂不讨论此库。

**Beautiful Soup库：**解析获取的HTML信息。安装方法：

pip install beautifulsoup4

- Python爬虫实例 -

◆ ◆ ◆ ◆

第一步：安装各种包

资料来源：西瓜财经资讯

第二步：根据URL，获取网页的HTML信息

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。