Python3 基础爬虫

本文介绍了Python3中使用requests库进行网页抓取的基础操作,包括安装与基本方法。接着讲解了Beautiful Soup库的安装,并通过实战案例——爬取小说网站,展示了如何获取网页内容、解决解码问题以及如何利用Beautiful Soup解析HTML,提取所需内容。在实战中,重点讨论了如何找到并选择特定标签路径来提取目标信息。
摘要由CSDN通过智能技术生成

1. requests

在Python3中,可以使用urllib.request和requests进行网页爬取。

  • urllib库是python内置的,无需安装
  • requests库是第三方库,需自行安装

1.1 安装命令

pip install requests

1.2 requests的基础方法

方法 说明
requests.request() 构造一个请求,支撑以下方法的基础方法
requests.get() 获取HTML网页,对应HTTP的GET
requests.head() 获取HTML网页的头信息,对应HTTP的HEAD
requests.post() 向网页提交POST请求的方法,对应HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应HTTP的PUT
requests.putch() 向HTML网页提交局部修改请求,对应HTTP的PATCH
requests.delete() 向HTML页面提交删除请求,对应HTTP的DELETE

官方中文教程地址

2. Beautiful Soup

2.1 安装命令

pip install beautifulsoup4

官方文档

3. 库的导入

import requests
from bs4 import BeautifulSoup 

4. 实战 - 小说爬取

目标网站:https://www.52bqg.net/
首先查看网站的robots.txt文件:https://www.52bqg.net/robots.txt
robots.txt
可以看到除js和css文件外其余内容都是允许爬取的

4.1获取网页内容

import requests
from bs4 import BeautifulSoup

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值