【记录爬虫实战过程】入门学习·详细过程·用爬虫实现小说爬取1

本文分享了初学者如何通过模仿和实践,用Python爬虫抓取小说的过程,重点介绍了遇到的中文乱码问题及其解决方案。通过实例展示了如何使用requests和BeautifulSoup库抓取《一念永恒》的内容并保存到txt文件。
摘要由CSDN通过智能技术生成

前言

要做一个项目,所以先学习熟练应用爬虫。
在此记录学习过程,供他人参考,也督促自己坚持学习。

目标:
用爬虫实现小说爬取!

背景

1.已掌握一些基础的相关知识
2.运行环境为vs code
3.安装一些爬虫所用的库文件:可以在cmd中,使用pip获取,例如按照如下指令安装requests库文件::pip install requests

大致路线

  1. 模仿+学习他人
  2. 自己练习+扩展
  3. 总结问题+经验

此篇为第一部分:模仿学习

学习过程

参照这篇文章 来逐步练习小说爬取。过程很清楚完整,很适合初学者熟悉大致过程。不知道为什么评论有很多人出现了问题,但是我做完后只出现了文字乱码的问题。

遇到的问题及解决方案

文字乱码解决方案【三种】:对文字进行转码即可

def get_download_url(self):
        req=requests.get(url=self.target)
         #解决中文乱码问题!
         #这三种任选一种即可
        req.encoding = 'GB2312' 
        #req.encoding = 'utf-8' 
        #Response.encoding=Response.apparent_encoding  #自动识别响应体的编码
        html=req.text

在后面多次练习之后发现对于不同的网站要采用不同的方式,所以我的解决方法为这几个代码挨着试一下,看哪一个行

完整代码

以下为详细代码+注释:

import requests
import sys
from bs4 import BeautifulSoup

class downloader(object):
    def __init__(self):
        self.server='http://www.biqukan.com/' #是提取内容时所用的固定前缀
        self.target='http://www.biqukan.com/1_1094/' #用于目录页
        self.names=[]  #存放章节名
        self.urls=[]  #存放章节链接
        self.nums=0  #存放章节数


    """ 函数说明:获取下载链接 """
    def get_download_url(self):
        req=requests.get(url=self.target)
        req.encoding = 'utf-8'   #解决中文乱码问题!
        html=req.text

        #创建一个Beautiful Soup对象
        div_bf=BeautifulSoup(html)
        #获得html信息中所有class属性为listmain的div标签
        #因为python中class是关键字,为防止冲突,使用class_表示标签的class属性
        div=div_bf.find_all('div',class_='listmain')
        a_bf=BeautifulSoup(str(div[0]))
        a=a_bf.find_all('a')
        self.nums=len(a[15:])   #剔除不必要的章节,此处从第16个章节开始下载。并统计章节数
        for each in a[15:]:
            self.names.append(each.string)
            self.urls.append(self.server+each.get('href'))


    """ 函数说明:获取章节内容 """
    def get_contents(self,target): 
        req=requests.get(url=target)
        req.encoding = 'utf-8'   #解决中文乱码问题!
        html=req.text
        #创建一个Beautiful Soup对象
        bf=BeautifulSoup(html)
        #获得html信息中所有class属性为showtxt的div标签
        #因为python中class是关键字,为防止冲突,使用class_表示标签的class属性
        texts=bf.find_all('div',class_='showtxt')
        texts=texts[0].text.replace('\xa0'*8,'\n\n')  #将空格替换成两次提行
        return texts


    """ 函数说明:将爬取的文章内容写入文件 """
    def writer(self,name,path,text):
        write_flag=True
        with open(path,'a',encoding='utf-8') as f:
            f.write(name+'\n') #小说名字
            f.writelines(text)  #小说内容
            f.write('\n\n')


    """ 主函数 """
if __name__=="__main__":
    dl=downloader() #创建类
    dl.get_download_url()
    print('《一念永恒》开始下载:')
    print(dl.nums)
    for i in range(dl.nums):
        dl.writer(dl.names[i],'一念永恒.txt',dl.get_contents(dl.urls[i]))
        print(" 已下载第"+str (i+1)+ "章:%.3f%%" % float(i/dl.nums)+'\r') #改进
        sys.stdout.write("  已下载:%.3f%%" % float(i/dl.nums)+'\r')
        sys.stdout.flush()
    print("《一念永恒》下载完毕")

补充

第二部分传送门,主要是自己练习,并在原来的基础上进行扩展:添加了请求头、设置爬取时间间隔、添加异常处理机制,对爬取小说的大致步骤进行了总结,并列出了遇到的问题

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值