【记录爬虫实战过程】入门学习·详细过程·用爬虫实现小说爬取1

最新推荐文章于 2022-04-28 13:14:03 发布

Timer95

最新推荐文章于 2022-04-28 13:14:03 发布

阅读量242

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/Rover95/article/details/118531805

版权

爬虫专栏收录该内容

8 篇文章 2 订阅

订阅专栏

本文分享了初学者如何通过模仿和实践，用Python爬虫抓取小说的过程，重点介绍了遇到的中文乱码问题及其解决方案。通过实例展示了如何使用requests和BeautifulSoup库抓取《一念永恒》的内容并保存到txt文件。

摘要由CSDN通过智能技术生成

前言

要做一个项目，所以先学习熟练应用爬虫。
在此记录学习过程，供他人参考，也督促自己坚持学习。

目标：
用爬虫实现小说爬取！

背景

1.已掌握一些基础的相关知识
2.运行环境为vs code
3.安装一些爬虫所用的库文件：可以在cmd中，使用pip获取，例如按照如下指令安装requests库文件：：pip install requests

大致路线

模仿+学习他人
自己练习+扩展
总结问题+经验

此篇为第一部分：模仿学习

学习过程

参照这篇文章来逐步练习小说爬取。过程很清楚完整，很适合初学者熟悉大致过程。不知道为什么评论有很多人出现了问题，但是我做完后只出现了文字乱码的问题。

遇到的问题及解决方案

文字乱码解决方案【三种】：对文字进行转码即可

def get_download_url(self):
        req=requests.get(url=self.target)
         #解决中文乱码问题！
         #这三种任选一种即可
        req.encoding = 'GB2312' 
        #req.encoding = 'utf-8' 
        #Response.encoding=Response.apparent_encoding  #自动识别响应体的编码
        html=req.text

在后面多次练习之后发现对于不同的网站要采用不同的方式，所以我的解决方法为这几个代码挨着试一下，看哪一个行

完整代码

以下为详细代码+注释：

import requests
import sys
from bs4 import BeautifulSoup

class downloader(object):
    def __init__(self):
        self.server='http://www.biqukan.com/' #是提取内容时所用的固定前缀
        self.target='http://www.biqukan.com/1_1094/' #用于目录页
        self.names=[]  #存放章节名
        self.urls=[]  #存放章节链接
        self.nums=0  #存放章节数


    """ 函数说明:获取下载链接 """
    def get_download_url(self):
        req=requests.get(url=self.target)
        req.encoding = 'utf-8'   #解决中文乱码问题！
        html=req.text

        #创建一个Beautiful Soup对象
        div_bf=BeautifulSoup(html)
        #获得html信息中所有class属性为listmain的div标签
        #因为python中class是关键字，为防止冲突，使用class_表示标签的class属性
        div=div_bf.find_all('div',class_='listmain')
        a_bf=BeautifulSoup(str(div[0]))
        a=a_bf.find_all('a')
        self.nums=len(a[15:])   #剔除不必要的章节，此处从第16个章节开始下载。并统计章节数
        for each in a[15:]:
            self.names.append(each.string)
            self.urls.append(self.server+each.get('href'))


    """ 函数说明:获取章节内容 """
    def get_contents(self,target): 
        req=requests.get(url=target)
        req.encoding = 'utf-8'   #解决中文乱码问题！
        html=req.text
        #创建一个Beautiful Soup对象
        bf=BeautifulSoup(html)
        #获得html信息中所有class属性为showtxt的div标签
        #因为python中class是关键字，为防止冲突，使用class_表示标签的class属性
        texts=bf.find_all('div',class_='showtxt')
        texts=texts[0].text.replace('\xa0'*8,'\n\n')  #将空格替换成两次提行
        return texts


    """ 函数说明:将爬取的文章内容写入文件 """
    def writer(self,name,path,text):
        write_flag=True
        with open(path,'a',encoding='utf-8') as f:
            f.write(name+'\n') #小说名字
            f.writelines(text)  #小说内容
            f.write('\n\n')


    """ 主函数 """
if __name__=="__main__":
    dl=downloader() #创建类
    dl.get_download_url()
    print('《一念永恒》开始下载：')
    print(dl.nums)
    for i in range(dl.nums):
        dl.writer(dl.names[i],'一念永恒.txt',dl.get_contents(dl.urls[i]))
        print(" 已下载第"+str (i+1)+ "章：%.3f%%" % float(i/dl.nums)+'\r') #改进
        sys.stdout.write("  已下载：%.3f%%" % float(i/dl.nums)+'\r')
        sys.stdout.flush()
    print("《一念永恒》下载完毕")

补充

第二部分传送门，主要是自己练习，并在原来的基础上进行扩展：添加了请求头、设置爬取时间间隔、添加异常处理机制，对爬取小说的大致步骤进行了总结，并列出了遇到的问题

Timer95

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【记录爬虫实战过程】入门学习·详细过程·用爬虫实现小说爬取1

要做一个项目，所以先学习熟练应用爬虫。在此记录学习过程，供他人参考，也督促自己坚持学习。目标：用爬虫实现小说爬取！背景：1.已掌握一些基础的相关知识2.运行环境为vs code3.安装一些爬虫所用的库文件：可以在cmd中，使用pip获取，例如按照如下指令安装requests库文件：：pip install requests大致路线：模仿+学习他人自己练习+扩展总结问题+经验此篇为第一部分：模仿学习参照这篇文章来逐步练习小说爬取。过程很清楚完整，很适合初学者熟悉大致过程。不知道
复制链接

扫一扫

专栏目录