P2 【Python爬虫】简单的网页爬虫开发_requests

目录

1.简单的爬虫尝试-半自动爬虫开发

2.requests:Python的一个第三方HTTP库

3.使用requests获取网页源码时的网页打开方式

3.1输入网址访问的页面:GET方式

3.2根据链接跳转访问:POST方式


1.简单的爬虫尝试-半自动爬虫开发

        所谓半自动爬虫,顾名思义就是一半手动一半自动地进行爬虫,手动的部分是把网页的源代码复制下来,自动的部分是通过正则表达式把其中的有效信息提取出来。      

  半自动爬虫的步骤:

(1)在浏览器中查看网站的源代码。
(2)使用Python读文本文件。
(3)正则表达式的应用。
(4)先抓大再抓小的匹配技巧。
(5)使用Python写CSV文件。

        博主尝试了百度贴吧中关于“哈利波特”的帖子,复制源代码后利用简单的正则表达进行了半自动爬虫,获得了发帖人昵称,发帖内容以及创建时间。

        具体代码见博主github:

WebSpider/P2 Semi_automatic_crawler at main · zjw001210/WebSpider · GitHub 

 

2.requests:Python的一个第三方HTTP库

        requests是Python的一个第三方HTTP(Hypertext Transfer Protocol,超文本传输协议)库,它比Python自带的网络库urllib更加简单、方便和人性化。

        使用requests可以让Python实现访问网页并获取源代码的功能。使用requests获取网页的源代码,最简单的情况下只需要两行代码:

#使用requests获取源代码
      
import requests
      
source = requests.get('https://www.baidu.com').content.deocde()

Python的第三方库

        在Python开发的过程中,常常需要将一些功能比较通用的代码抽离出来作为一个单独的模块,从而被多个工程调用。这种公共的模块称为Python的库(Library, Lib)
        Python在发布时会自带一些由官方开发的常用的库,例如正则表达式“re”、时间“time”等。这些库称为“官方库”。而由非官方发布的库,则称为“第三方库”。
        Python之所以如此强大,正是由于它拥有非常多的第三方库。使用第三方库,可以轻易实现各种各样的功能。以获取网页内容为例,Python其实自带了两个模块,分别是urllib和urllib2。使用这两个模块也可以获取网页内容。但是这两个模块使用起来非常麻烦。而requests这个第三方库,让获取网页内容变得极其简单。
        requests这个库的作者给这个库取了一个副标题“HTTP for humans”,直接翻译过来就是“这才是给人用的HTTP库”。

        开发者自己写的.py文件的名字绝对不能和Python自带的模块或者已经安装的第三方库的名字相同,否则会产生问题

3.使用requests获取网页源码时的网页打开方式

3.1输入网址访问的页面:GET方式

代码原理解释:

import requests
    
# 第1行导入了requests库,这样代码里面才能使用。
html = requests.get('网址')
  
# 第2行使用GET方法获取了网页,得到一个Response对象。此时如果直接打印HTML变量,得到的是<Response [200]>  
html_bytes = html.content
    
# 第3行使用.content这个属性来显示bytes型网页的源代码。
html_str = html_bytes.decode()
# 第4行代码将bytes型的网页源代码解码为字符串型的源代码。

简化代码:

import requests
    
html_str = requests.get('网址').content.decode()

       bytes型的数据解码为字符串型的数据,是因为在bytes型的数据类型下,中文是无法正常显示的。这个“解码”对应的英文为“decode”,因而我们需要使用.decode()这个方法
       这个方法的参数可以省略。在省略的时候,默认使用UTF-8编码格式来把bytes型解码为字符串型的源代码。可能有一些中文网页,它的编码格式本身不是UTF-8,这就需要在括号里面写明目标编码格式的名字。例如:

       html = requests.get('网址').content.decode('GBK')
    html = requests.get('网址').content.decode('GB2312')
    html = requests.get('网址').content.decode('GB18030')
编码格式有几十种,但最常见的是“UTF-8”“GBK”“GB2312”和“GB18030”。

       具体使用哪一种编码格式,需要根据实际情况来选择。大多数情况下使用“UTF-8”,但也有一些网站会使用“GBK”或者“GB2312”。读者可以每一种编码格式都测试一下,通过打印出网页的源代码,查看里面的中文是否显示正常,以中文可以正常显示为准。

3.2根据链接跳转访问:POST方式

        有一些网页,使用GET和POST方式访问同样的网址,得到的结果是不一样的。还有另外一些网页,只能使用POST方式访问,如果使用GET方式访问,网站会直接返回错误信息。

        此时就需要使用requests的post()方法来获取源代码

        还有一些网址,提交的内容需要是JSON格式的,因此post()方法的参数需要进行一些修改:

html_json = requests.post('网址', json=data).content.decode() 
#使用JSON提交数据,这样写代码,requests可以自动将字典转换为JSON字符串。

具体代码(以爬取微博热搜为例)见博主github:WebSpider/requests+Get+Post+weiboTop.py at main · zjw001210/WebSpider · GitHub

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张小怪的碗

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值