scrapy爬取数据时出现所有数据都重复问题

最新推荐文章于 2024-07-04 16:04:39 发布

安和桥要加油

最新推荐文章于 2024-07-04 16:04:39 发布

阅读量3.5k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_43231261/article/details/104401149

版权

目标

爬取这个网站的http://www.wdzb.org.cn/forum.php?mod=forumdisplay&fid=99&typeid=34&typeid=34&filter=typeid&page=1（中国老龄网的新闻资讯板块），从新闻列表获取新闻详情页的链接，爬取详情页的内容。

spider.py

# -*- coding: utf-8 -*-
import scrapy
import re

from zgllw.items import ZgllwItem
class zgllw(scrapy.Spider):
    name = 'z'
    allowed_domains = ['wdzb.org.cn']
    url = 'http://www.wdzb.org.cn/forum.php?mod=forumdisplay&fid=99&typeid=34&typeid=34&filter=typeid&page='
    i = 1
    start_urls = [url + str(i)]
    def parse(self, response):
        addrs = response.xpath('//div[@class="list_tit"]/a/@href').extract(

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

安和桥要加油

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
5
评论
scrapy爬取数据时出现所有数据都重复问题

目标爬取这个网站的http://www.wdzb.org.cn/forum.php?mod=forumdisplay&fid=99&typeid=34&typeid=34&filter=typeid&page=1（中国老龄网的新闻资讯板块），从新闻列表获取新闻详情页的链接，爬取详情页的内容。spider.py# -*- coding: utf-8 -*...
复制链接

扫一扫