利用scrapy框架爬取淘宝

最新推荐文章于 2024-06-22 18:32:41 发布

majiexiong

最新推荐文章于 2024-06-22 18:32:41 发布

阅读量2.2k

点赞数 2

分类专栏：学习博客 python

本文链接：https://blog.csdn.net/majiexiong/article/details/82107934

版权

本文介绍了如何运用Scrapy框架进行网络爬虫实践，详细讲解了在taobao.py主程序、items.py以及pipelines中实现的关键代码，并提到了Scrapy的基本配置设置。

摘要由CSDN通过智能技术生成

taobao.py主爬取程序

# -*- coding: utf-8 -*-
import scrapy
import json
import re
from ..items import TaobaoItem

class TaobaoSpider(scrapy.Spider):
    name = 'taobao'
    allowed_domains = ['taobao.com']

    start_urls = ['https://s.taobao.com']
    #https://s.taobao.com/search?q=%E4%B8%89%E6%98%9F&s=88
    def parse(self,response):
        for i in range(2, 11):
            i = i * 44
            #q=后面是搜索的商品名称，本爬虫用三星做实例
            next_url = 'https://s.taobao.com/search?q=%E4%B8%89%E6%98%9F&s={}'.format(i)
            yield scrapy.Request(next_url,callback=self.parse_xq)

    def parse_xq(self, response):
        item = TaobaoItem()
        # with open('taobao.html','wb') as f:
        #     f.write(response.body)
        html_str = response.text
        # print(html_str)
        titles = re.findall(r'"raw_ti

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

majiexiong

关注关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
2
评论
利用scrapy框架爬取淘宝

taobao.py主爬取程序# -*- coding: utf-8 -*-import scrapyimport jsonimport refrom ..items import TaobaoItemclass TaobaoSpider(scrapy.Spider): name = 'taobao' allowed_domains = ['taobao.com']...
复制链接

扫一扫