Python--爬虫--requests入门

目录

一、了解爬虫基本概念

二、requests简介

三、总结


一、了解爬虫基本概念

1、什么是爬虫,爬虫有什么用?

        按照一定的规则,自动地抓取互联网信息的程序或者脚本叫做爬虫;

        作用:相当于探测机器,可以模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。

2、爬虫是怎么运行的?

       基本上是按照,发送请求——获得页面——解析页面——抽取并储存内容,这样的流程来进行操作,模拟了我们实验电脑或者手机使用浏览器获取网页信息的过程。

二、requests简介

1、如何安装?

        在Pycharm等编译器中直接导入模块:import requests;

       方法一(最容易): 此时会出现波浪线提示,我们将鼠标移动到波浪线上,会出现此模块未下载的提示(Modul no found),我们直接点击提示的下载该模块,等待2分钟左右即下载成功;

      方法二(pip命令安装):  在控制台输入:pip install requests(win操作系统),pip3 install requests(Mac操作系统),linux操作系统还没咋学,还不知道(搜索引擎找找也很快能解决这个问题)。

2、如何验证是否成功安装?

        在Pycharm等编译器中直接导入模块:import requests,未出现波浪线警告则证明已经下载成功。

3、requests库作用

        是用来模拟我们电脑或者手机发起的请求的,相当于是一个模拟我们电脑或者手机身份的库。

4、requests基本使用

        1、get方法:requests.get(url,headers等参数),url参数是我们需要爬取的网站,headers参数是我们的请求头,是用来防止爬取过程中被反爬的(一旦被反爬,我们无法返回数据,我们发起的请求被拒绝了)。该方法会返回一个请求的结果,该结果会返回我们爬取到的数据。

如下图2.1:

import requests

url = "我们爬取的网站"

resp = requests.get(url)

print(resp.text) # 输出我们返回请求的源代码,即为爬取的url源代码

图2.1

若网站不存在反爬,则我们会获取到网页的源代码,如存在反爬则返回内容为空。

怎么解决呢?这时需要我们重新访问该网站,F12打开开发者模式,进入network,点击一个文件(一个找不到,就多点击几个,一般是点击前面的文件才有user-agent),复制,回到我们的Pycharm等编译器,把内容放进字典。

如下图2.2、图2.3:

 图2.2

图2.3

本次只讲了比较常用的get方法,其它方法还在学习,此时基本上大部分网站我们都可以爬取到源代码并输出源代码,完成爬取的功能。

三、总结

1、完成一个爬虫的基本步骤,有目标url->获取请求->输出返回请求的结果(源码等结果);

2、把源码爬取回来之后,进行所需内容的提取(re,bs4,xpath)等方法;

3、内容提取成功后,进行数据的保存与数据可视化等步骤。 

4、思考,如何进行多页面的爬取?如何进行页面的转化?

5、分布式爬虫是啥?

6、如何优化代码等。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值