Python实战案例分享：爬取当当网商品数据

最新推荐文章于 2020-08-09 08:17:08 发布

weixin_33953384

最新推荐文章于 2020-08-09 08:17:08 发布

阅读量1.6k

点赞数 1

文章标签： python 爬虫数据库

原文链接：https://yq.aliyun.com/articles/149568

版权

作者：韦玮

转载请注明出处

目前，网络爬虫应用领域非常广，在搜索引擎、大数据分析、客户挖掘中均可以用到。在本篇博文中，韦玮老师会以当当网爬虫为例，为大家讲解如何编写一个自动爬虫将当当网的商品数据都爬取下来。

首先，需要创建一个名为dangdang的爬虫项目，如下所示：

D:\Python35\myweb>scrapy startproject dangdang

New Scrapy project 'dangdang', using template directory 'd:\\python35\\lib\\site-packages\\scrapy\\templates\\project', created in:

D:\Python35\myweb\dangdang

You can start your first spider with:

cd dangdang

scrapy genspider example example.com

创建好了爬虫项目之后，我们需要进入该爬虫项目，然后在爬虫项目中创建一个爬虫，如下所示：

D:\Python35\myweb>cd .\dangdang\

D:\Python35\myweb\dangdang>scrapy genspider -t basic dangspd dangdang.com

Created spider 'dangspd' using template 'basic' in module:

Dangdang.spiders.dangspd

爬虫和爬虫项目是不一样的，一个爬虫项目中可以有1个或多个爬虫文件。

随后，我们需要编写items.py文件，在该文件中定义好需要爬取的内容，我们将items.py文件修改为如下所示：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

#

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class DangdangItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

#商品标题

title=scrapy.Field()

#商品评论数

num=scrapy.Field()

随后，需要编写pipelines.py文件，在pipelines.py文件中，我们一般会编写一些爬取后数据处理的代码，我们需要将爬取到的信息依次展现到屏幕上（当然你也可以将爬取到的信息写进文件或数据库中），我们将pipelines.py文件修改为如下所示：

最低0.47元/天解锁文章

weixin_33953384

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Python实战案例分享：爬取当当网商品数据

作者：韦玮转载请注明出处目前，网络爬虫应用领域非常广，在搜索引擎、大数据分析、客户挖掘中均可以用到。在本篇博文中，韦玮老师会以当当网爬虫为例，为大家讲解如何编写一个自动爬虫将当当网的商品数据都爬取下来。首先，需要创建一个名为dangdang的爬虫项目，如下所示：D:\Python35\myweb>scrapy startprojec...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。