第一个爬虫项目总结（爬取小说）

最新推荐文章于 2024-08-12 22:14:01 发布

Light Bob

最新推荐文章于 2024-08-12 22:14:01 发布

阅读量1.9k

点赞数 1

分类专栏：学习计划文章标签： python

本文链接：https://blog.csdn.net/Light_Bob/article/details/109208760

版权

本文总结了一个Python爬虫项目，用于爬取网络小说。首先介绍了准备工作，包括requests、beautifulsoup4和lxml的安装。接着详细描述了如何爬取小说的第一章，然后分享了如何获取并爬取整套小说的方法。最后，作者总结了项目中遇到的乱码问题及解决方案，并提出了改进方案，如字符串处理、进度显示和多进程应用。

摘要由CSDN通过智能技术生成

爬取小说总结

一、准备工作

(1) requests安装
在cmd中，使用如下指令安装requests：
pip install requests

(2) beautifulsoup的安装
pip install beautifulsoup4

(3) lxml的安装
python3.7中lxml的安装

二、爬取第一章

目标网站：https://www.biqukan.com/38_38836/497783246.html

import requests
from bs4 import BeautifulSoup
def getOnepage(url):
    r = requests.get(url) #通过requests.get方法get请求页面
    r.status_code  #响应状态码
    html = r.text #获取爬取下来的html元素
    saveText('test', html)

def saveText(title, context):  #将内容通过文件保存下来，方便查看
    fp = open(title+'.txt', 'a'， encoding='utf-8