python3 简单爬虫实战|使用selenium来模拟浏览器抓取选股宝网站信息里面的股票

最新推荐文章于 2022-11-14 19:23:38 发布

鏗

最新推荐文章于 2022-11-14 19:23:38 发布

阅读量1.6k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42480638/article/details/80741332

版权

对爬虫的简单介绍

1. 什么是爬虫？

请求页面并提取数据的自动化过程。

2. 爬虫的基本流程

（1）发起请求：通过url向服务器发起request请求，请求可以包含额外的header信息。

（2）获取响应内容：如果服务器正常响应，那我们将会收到一个response，response即为我们所请求的网页内容，或许包含HTML，Json字符串或者二进制的数据（视频、图片）等。

（3）解析内容：如果是HTML代码，则可以使用网页解析器进行解析，如果是Json数据，则可以转换成Json对象进行解析，如果是二进制的数据，则可以保存到文件进行进一步处理。

（4）保存数据：可以保存到本地文件，也可以保存到数据库（MySQL，Redis，Mongodb等）

3. request请求包含什么？

1) 请求方式：最常用的请求方式包括get请求和post请求。post请求在开发中最常见的是通过表单进行提交，从用户角度来讲，最常见的就是登录验证。当你需要输入一些信息进行登录的时候，这次请求即为post请求。

2) url统一资源定位符：一个网址，一张图片，一个视频等都可以用url去定义。

3) request headers：请求头，包括这次请求的请求类型，cookie信息以及浏览器类型等。这个请求头在我们进行网页抓取的时候还是有些作用的，服务器会通过解析请求头来进行信息的审核，判断这次请求是一次合法的请求。所以当我们通过程序伪装浏览器进行请求的时候，就可以设置一下请求头的信息。

4) 请求体：post请求会把用户信息包装在form-data里面进行提交，因此相比于get请求，post请求的Headers标签的内容会多出Form Data这个信息包。get请求可以简单的理解为普通的搜索回车，信息将会以?间隔添加在url的后面。

4. response包含什么

1) 响应状态：通过Headers中的General可以看到status code。

status code=200表示成功，301跳转，404找不到网页，502服务器错误等。

2) 响应头：包括了内容的类型，cookie信息等。

3) 请响应体：求的目的就是为了得到响应体，包括html代码，Json以及二进制数据等。

此次爬虫实战使用到的库（确认电脑是否已安装以下库）

1.selenium （浏览器自动化测试框架需要我们下载）selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。该库需要我们下载，

下载操作如下：

1、在配置好python3 pip环境变量的情况下使用快捷键 WIN+R 输入cmd 后输入pip install selenium

2、

进入Scripts 文件夹按着 Shift 加右键点击 Powershel

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python3 简单爬虫实战|使用selenium来模拟浏览器抓取选股宝网站信息里面的股票

对爬虫的简单介绍1. 什么是爬虫？请求页面并提取数据的自动化过程。2. 爬虫的基本流程（1）发起请求：通过url向服务器发起request请求，请求可以包含额外的header信息。（2）获取响应内容：如果服务器正常响应，那我们将会收到一个response，response即为我们所请求的网页内容，或许包含HTML，Json字符串或者二进制的数据（视频、图片...
复制链接

扫一扫

鏗 CSDN认证博客专家 CSDN认证企业博客

码龄6年

1: 原创

98万+: 周排名

111万+: 总排名

1633: 访问

: 等级

17: 积分

0: 粉丝

0: 获赞

0: 评论

6: 收藏

私信

关注

热门文章

python3 简单爬虫实战|使用selenium来模拟浏览器抓取选股宝网站信息里面的股票 1633

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。