python爬虫之爬取网站小说，获取一部小说

最新推荐文章于 2024-09-05 17:33:10 发布

warm...

最新推荐文章于 2024-09-05 17:33:10 发布

阅读量526

点赞数

分类专栏： Python爬虫文章标签： python xpath

本文链接：https://blog.csdn.net/qq_46292926/article/details/104830702

版权

Python爬虫专栏收录该内容

41 篇文章 0 订阅

订阅专栏

本文介绍了使用Python爬虫技术爬取网站小说的初学者经验，通过学习和大佬的帮助，成功完成了一部小说的抓取。文章分享了相关代码作为参考。

摘要由CSDN通过智能技术生成

python爬虫之爬取网站小说，由于学习没多久，许多小细节还不是很理解清楚，在大佬的帮助下，完成了这篇。
代码仅作参考：

'''
函数式编程
纵横中文网爬取阴阳酒馆小说
'''

# 导入第三方库
import requests
from lxml import etree
import time
import os
from fake_useragent import UserAgent
ua = UserAgent()
headers = {'User-Agent':ua.random}


# 得到html文本的函数
def get_html(url):
    time.sleep(1)
    html = requests.get(url, headers=headers).content.decode()
    return html


# 解析html文本的函数
def paser_html(html):
    e = etree.HTML(html)
    href = e.xpath('//ul[@class="chapter-list clearfix"]/li[@class=" col-4"]/a/@href')
    return href


# 定义解析详情页并保存的函数
def paser_detail(href):
    if not os.path.exists('阴阳酒馆'):
        os.mkdir('阴阳酒馆')
    for url in href:
        time.sleep(1)
        parg = requests.get(url, headers=headers).content.decode()
        e = etree.HTML(parg)
        text = e.xpath('//div[@class="content"]/p/text()')
        title = e.xpath('//div[@class="title"]/div[@class="title_txtbox"]/text()')
        with open('阴阳医馆' + '/' + '{}.txt'.format(title[0]), 'a', encoding='utf-8') as f:
            f.write(title[0])
            f.write('\r')
            for i in text:
                f.write(i)
            f.write('\r')


# 定义主函数
def main():
    url = "http://book.zongheng.com/showchapter/894704.html"
    html = get_html(url)
    href = paser_html(html)
    paser_detail(href)


# 运行函数
if __name__ == '__main__':
    main()