Scrapy爬取淘宝网数据的尝试

shu_8708

于 2017-08-18 15:26:06 发布

阅读量1.3w

点赞数 8

CC 4.0 BY-SA版权

分类专栏： Python 文章标签： scrapy 淘宝网爬虫 mongodb

本文链接：https://blog.csdn.net/shu_8708/article/details/77369516

本文介绍如何利用Scrapy框架爬取淘宝网的商品信息，面对淘宝的反爬策略，作者详细阐述了如何抓取搜索结果的前31页内容，并将数据存储到MongoDB中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

因为想学习数据库，想要获取较大量的数据，第一个想到的自然就是淘宝。。。。其中有大量的商品信息，淘宝网反爬措施还是比较多，特别是详情页面还有恶心的动态内容

该例子中使用Scrapy框架中的基础爬虫(CrawlSpider还有点没搞清楚= = b)

先贴上整体代码

import scrapy
import re
import csv
import pymongo
from tmail.items import TmailItem
class WeisuenSpider(scrapy.Spider):
    name = 'weisuen'
    start_url = 'https://s.taobao.com/search?q=%E5%B8%BD%E5%AD%90&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.50862.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170817&s=300'
    detail_urls=[]
    data=[]
    client=pymongo.MongoClient("localhost",27017)
    db=client.taobao
    db=db.items
    def start_requests(self):
        for i in range(30):#爬31页数据差不多了
            url=self.start_url+'&s='+str(i*44)
            y