Python爬虫深入
爬取当当网商品基本信息
使用scrapy爬虫框架,创建爬虫项目。
基本命令:
scrapy startproject dangdang
scrapy genspider -l
scrapy genspider -t basic dd dangdang.com
在dangdang这个爬虫项目下:
items.py的内容
对爬取数据之后提取的数据进行定义
import scrapy
class DangdangItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title=scrapy.Field()
link=scrapy.Field()
price=scrapy.Field()
comment=scrapy.Field()
commentlink=scrapy.Field()
dd.py的内容
依托于scrapy框架的爬虫文件
爬取数据,然后提取数据,并赋给对象
import scrapy
from dangdang.items import DangdangItem
from scrapy.http import Request
class DdSpider(scrapy.Spider):
name = 'dd'
allowed_domains = ['dangdang.com']
start_urls =

本文介绍了如何使用Python的Scrapy框架创建爬虫项目,爬取当当网的商品基本信息,包括商品标题、链接、价格和评论数。首先通过`scrapy startproject`和`scrapy genspider`命令创建项目和爬虫,接着在`items.py`中定义数据结构,`dd.py`中实现爬虫逻辑,`settings.py`中配置数据库连接,`pipelines.py`中处理数据并写入MySQL数据库。最后,创建名为`dangdang`的数据库和`dd`表,并验证爬取数据的数量,当`select count(*) from dd`的值约为480时,表明爬取写入成功。
最低0.47元/天 解锁文章
816

被折叠的 条评论
为什么被折叠?



