python3 简单爬虫实战|使用selenium来模拟浏览器抓取选股宝网站信息里面的股票

对爬虫的简单介绍

1.    什么是爬虫?

请求页面并提取数据的自动化过程。

2.    爬虫的基本流程

       (1) 发起请求:通过url向服务器发起request请求,请求可以包含额外的header信息。

       (2)获取响应内容:如果服务器正常响应,那我们将会收到一个response,response即为我们所请求的网页内容,或许包含HTML,Json字符串或者二进制的数据(视频、图片)等。

      (3) 解析内容:如果是HTML代码,则可以使用网页解析器进行解析,如果是Json数据,则可以转换成Json对象进行解析,如果是二进制的数据,则可以保存到文件进行进一步处理。

      (4)保存数据:可以保存到本地文件,也可以保存到数据库(MySQL,Redis,Mongodb等)

 

3.    request请求包含什么?

1)   请求方式:最常用的请求方式包括get请求和post请求。post请求在开发中最常见的是通过表单进行提交,从用户角度来讲,最常见的就是登录验证。当你需要输入一些信息进行登录的时候,这次请求即为post请求。

2)   url统一资源定位符:一个网址,一张图片,一个视频等都可以用url去定义。

3)   request headers:请求头,包括这次请求的请求类型,cookie信息以及浏览器类型等。这个请求头在我们进行网页抓取的时候还是有些作用的,服务器会通过解析请求头来进行信息的审核,判断这次请求是一次合法的请求。所以当我们通过程序伪装浏览器进行请求的时候,就可以设置一下请求头的信息。

4)   请求体:post请求会把用户信息包装在form-data里面进行提交,因此相比于get请求,post请求的Headers标签的内容会多出Form Data这个信息包。get请求可以简单的理解为普通的搜索回车,信息将会以?间隔添加在url的后面。

 

4.    response包含什么

1)  响应状态:通过Headers中的General可以看到status code。

  status code=200表示成功,301跳转,404找不到网页,502服务器错误等。

2)  响应头:包括了内容的类型,cookie信息等。

3)  响应体:求的目的就是为了得到响应体,包括html代码,Json以及二进制数据等。

 

此次爬虫实战使用到的库(确认电脑是否已安装以下库)

1.selenium (浏览器自动化测试框架需要我们下载)selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。该库需要我们下载,

            下载操作如下:

            1、在配置好python3 pip环境变量的情况下使用快捷键 WIN+R 输入cmd 后输入pip install selenium 

                2、

进入Scripts 文件夹 按着 Shift 加右键点击 Powershel

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值