Python网络爬虫总结

最新推荐文章于 2024-04-27 16:34:34 发布

置顶

灿若星辰丶

最新推荐文章于 2024-04-27 16:34:34 发布

阅读量1k

点赞数 2

文章标签： python爬虫

本文链接：https://blog.csdn.net/qq_37392589/article/details/85167386

版权

本文详细介绍了Python网络爬虫的规则，包括requests库的7种主要方法及其Response对象的属性。接着讲解了Beautiful Soup库的使用，包括解析器的选择和遍历标签树的功能。最后，通过实例展示了爬取电影信息并存储到数据库的过程。

摘要由CSDN通过智能技术生成

（1）requests库的应用

requests库的7个主要方法：

①requests.request()：构造一个请求，支撑以下个方法的基础方法

②requests.get()：获取HTML网页的主要方法，对应于HTTP的GET

③requests.head()：获取HTML网页头信息的方法，对应于HTTP的HEAD

④requests.post()：向HTML网页提交POST请求的方法，对应于HTTP的POST

⑤requests.put()：向HTML网页提交PUT请求的方法，对应于HTTP的PUT

⑥requests.patch()：向HTML网页提交局部修改请求，对应于HTTP的PATCH

⑦requests.delete()：向HTML网页提交删除请求，对应于HTTP的DELETE

Response对象的属性：

①r.status_code：HTTP请求的返回状态，200标识连接成功，404表示失败

②r.text：HTTP响应内容的字符串形式，即url对应的页面内容

③r.encoding：从HTTP header中猜测的响应内容编码方式

④r.apparent_encoding：从内容中分析出的响应内容编码方式（备选编码方式）

⑤r.content：HTTP响应内容的二进制形式

r.raise_for_status()：如果不是200，产生异常requests.HTTPError

更改user-agent的值，然后以POST请求访问指定网址
import requests

hd = {'user-agent':'Chrome/10'}
r = requests.request('POST','http://httpbin.org/

关注