Python爬虫MongoDB、Redis

职业打工人的汉堡

已于 2023-08-30 21:24:08 修改

阅读量767

点赞数

于 2023-08-30 21:22:42 首次发布

本文链接：https://blog.csdn.net/Anne_Stewart/article/details/132548678

版权

一、需求分析

目标网站：

白马酒店 - 阿加莎·克里斯蒂 - 小说在线阅读 - 努努书坊 (kanunu8.com)
www.kanunu8.com/tuili/9512/

目标内容：

阿加莎·克里斯蒂《白马酒店》的第一到二十五章的所有内容。

任务分解：编写2个爬虫

爬虫①：从https://www.kanunu8.com/tuili/9512/获取小说《白马酒店》第一到二十五章的网址，并将网址添加到Redis里名为url_queue的列表中；
爬虫②：从Redis里名为url_queue 的列表中读出网址，进入网址爬取每一章的具体内容，再将内容保存到MongoDB中。

涉及的知识点：

使用requests获取网页源代码
使用XPath从网页源代码中提取数据
使用Redis与MongoDB读/写数据

我的源代码：

import requests
from lxml import etree
import redis
from pymongo import MongoClient

# UA伪装
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 Edg/115.0.1901.203'
}
base_url = 'https://www.kanunu8.com/tuili/9512/'

response = requests.get(url=base_url, headers=headers)
# print(response.content.decode('gb2312'))
selector = etree.HTML(response.content.decode('gb2312'))
url_list = selector.xpath('//td/table/tbody/tr/td/a/@href')
url_list = url_list[1:]
# print([url for url in url_list])
# 实例化Redis客户端
redis_cli = redis.StrictRedis()

# 实例化MongoDB客户端
mongodb_cli = MongoClient()
mongodb = mongodb_cli['story']
handler = mongodb['baimajiudian']

for url in url_list:
    url = base_url + url
    redis_cli.lpush('url_queue', url)

content_list = []
while redis_cli.llen('url_queue') > 0:
    url = redis_cli.rpop('url_queue').decode()
    source = requests.get(url).content.decode('gbk')
    # print(source)
    # break
    selector = etree.HTML(source)
    chapter_name = selector.xpath('//strong/font/text()')[0]
    # print(chapter_name)
    # break
    content = selector.xpath('//p')[0]
    content = content.xpath('string(.)')
    # print(content)
    # break
    content_list.append({'title': chapter_name, 'content': '\n'.join(content)})
handler.insert_many(content_list)

职业打工人的汉堡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫MongoDB、Redis

从https://www.kanunu8.com/tuili/9512/获取小说《白马酒店》第一到二十五章的网址，并将网址添加到Redis里名为url_queue的列表中；：从Redis里名为url_queue 的列表中读出网址，进入网址爬取每一章的具体内容，再将内容保存到MongoDB中。白马酒店 - 阿加莎·克里斯蒂 - 小说在线阅读 - 努努书坊 (kanunu8.com)阿加莎·克里斯蒂《白马酒店》的第一到二十五章的所有内容。使用XPath从网页源代码中提取数据。
复制链接

扫一扫