Python3 基础爬虫

最新推荐文章于 2024-07-24 16:36:32 发布

82年的辣鸡

最新推荐文章于 2024-07-24 16:36:32 发布

阅读量1.1k

点赞数 1

分类专栏： Python 爬虫

本文链接：https://blog.csdn.net/qq_42815050/article/details/119834472

版权

本文介绍了Python3中使用requests库进行网页抓取的基础操作，包括安装与基本方法。接着讲解了Beautiful Soup库的安装，并通过实战案例——爬取小说网站，展示了如何获取网页内容、解决解码问题以及如何利用Beautiful Soup解析HTML，提取所需内容。在实战中，重点讨论了如何找到并选择特定标签路径来提取目标信息。

摘要由CSDN通过智能技术生成

1. requests

在Python3中，可以使用urllib.request和requests进行网页爬取。

urllib库是python内置的，无需安装
requests库是第三方库，需自行安装

1.1 安装命令

pip install requests

1.2 requests的基础方法

方法	说明
requests.request()	构造一个请求，支撑以下方法的基础方法
requests.get()	获取HTML网页，对应HTTP的GET
requests.head()	获取HTML网页的头信息，对应HTTP的HEAD
requests.post()	向网页提交POST请求的方法，对应HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应HTTP的PUT
requests.putch()	向HTML网页提交局部修改请求，对应HTTP的PATCH
requests.delete()	向HTML页面提交删除请求，对应HTTP的DELETE

官方中文教程地址

2. Beautiful Soup

2.1 安装命令

pip install beautifulsoup4

官方文档

3. 库的导入

import requests
from bs4 import BeautifulSoup

4. 实战 - 小说爬取

目标网站：https://www.52bqg.net/
首先查看网站的robots.txt文件：https://www.52bqg.net/robots.txt

可以看到除js和css文件外其余内容都是允许爬取的

4.1获取网页内容

import requests
from bs4 import BeautifulSoup

最低0.47元/天解锁文章

82年的辣鸡

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录