scrapy爬取当当网

春节已经临近了尾声,也该收收心了。博客好久都没更新了,自己在年前写的爬虫也该“拿”出来了。

本次爬取的目标是当当网,获取当当网所有的书籍信息。采用scrapy+mongodb来采集存储数据。开干!

起始url:

start_urls = ['http://category.dangdang.com/cp01.00.00.00.00.00-shlist.html']

 当当书籍的一级分类二级分类都很明显的展示了出来。

ok~入口找到了,当当网也没有设置反爬措施,所以可以直接的放心爬取,如果需要大规模爬取的时候可以对爬虫的请求时间设置下,不要给别人的服务器带来太多的压力。

DOWNLOAD_DELAY = 5

 ok,我直接上代码了!

items.py
 1 class BookDangdangItem(scrapy.Item):
 2     # 将数据插入到moongodb中
 3     price = scrapy.Field()  # 价格
 4     type_tag = scrapy.Field()  # 所属分类
 5     name = scrapy.Field()  # 书籍名称
 6     image_url = scrapy.Field()  # 首页的图片url
 7     link = scrapy.Field()  # url
 8     star_level = scrapy.Field()  #
 9     pub_time = scrapy.Field()  # 出版时间
10     publish = scrapy.Field()  # 出版社
11     brief = scrapy.Field()  # 描述
12 
13     detail = scrapy.Field()  # 书籍详情 {}
 spiders.py
  1 # -*- coding: utf-8 -*-
  2 import time
  3 import logging
  4 
  5 import scrapy
  6 from scrapy.http.cookies import CookieJar
  7 
  8 from ..items import BookDangdangItem
  9 from ..settings import DEFAULT_REQUEST_HEADERS
 10 
 11 
 12 class DangdangSpider(scrapy.Spider):
 13     name = 'dangdang'
 14     allowed_domains = ['dangdang.com']
 15     start_urls = ['http://category.dangdang.com/cp01.00.00.00.00.00-shlist.html']
 16     dom = 'http://category.dangdang.com'  # 用于拼接url
 17     cookie_dict = {}
 18 
 19     def start_requests(self):
 20         return [scrapy.Request(url=self.start_urls[0], callback=self.parse, headers=DEFAULT_REQUEST_HEADERS)]
 21 
 22     def parse(self, response):
 23         try:
 24             typestr = response.meta['type']
 25         except(KeyError):
 26             typestr = ""
 27         types = response.xpath('//*[@id="navigation"]/ul/li[1]/div[2]/div[1]/div/span/a')  # 获取书籍分类
 28         tyname = response.xpath('//*[@id="navigation"]/ul/li[1]/@dd_name').extract_first()
 29         if types and tyname == '分类':  # 到分类终止递归
 30             for type in types:
 31                 url = self.dom + type.xpath('@href').extract_first()  # 每一个书籍分类下面的url
 32                 typestr_new = typestr + "{0}>>".format(type.xpath('text()').extract_first())  # 多级分类
 33 
 34                 scrapy.Spider.log(self, "Find url:{0},type{1}".format(url, typestr_new), logging.INFO)  # 配置日志信息
 35                 yield scrapy.Request(url=url, callback=self.parse, meta={'type': typestr_new},
 36                                      headers=DEFAULT_REQUEST_HEADERS)
 37         else:
 38             page = int(response.xpath('//*[@id="go_sort"]/div/div[2]/span[1]/text()').extract_first())  # 当前页
 39             all_page = int(response.xpath('//*[@id="go_sort"]/div/div[2]/span[2]/text()').extract_first().lstrip('/'))  # 总页数
 40             for x in range(page, all_page):  # 处理分页
 41                 yield scrapy.Request(url=self.dom + '/pg{0}-'.format(x) + response.url.split('/')[-1],
 42                                      callback=self.parse_page, headers=DEFAULT_REQUEST_HEADERS,
 43                                      meta={'type': typestr})
 44 
 45     def parse_page(self, response):
 46         """解析列表页中书籍的信息"""
 47         # cookie可以不用加,我加上只是为了测试
 48         cookie_jar = CookieJar()
 49         cookie_jar.extract_cookies(response, response.request)
 50         for k, v in cookie_jar._cookies.items():
 51             for i, j in v.items():
 52                 for m, n in j.items():
 53                     self.cookie_dict[m] = n.value
 54         # print(self.cookie_dict)
 55 
 56         for item in response.xpath('//*[@id="search_nature_rg"]/ul[@class="bigimg"]/li'):
 57             # 所有图书
 58             book = BookDangdangItem()
 59             book['price'] = float(item.xpath('./p[@class="price"]/span[1]/text()').extract_first().lstrip('¥'))
 60             book['type_tag'] = response.meta['type']
 61             book['name'] = item.xpath('./p[@class="name"]/a/text()').extract_first().strip()
 62             book['image_url'] = item.xpath('./a/img/@src').extract_first()
 63             book['link'] = item.xpath('./p[1]/a/@href').extract_first()
 64             book['star_level'] = int(item.xpath('./p[@class="search_star_line"]/span/span/@style').extract_first()
 65                                                  .split(' ')[-1].rstrip('%;'))
 66             try:
 67                 book['pub_time'] = item.xpath('.//p[@class="search_book_author"]/span[2]/text()').extract_first().split('/')[-1]
 68             except Exception as e:
 69                 book['pub_time'] = time.strftime("%Y-%m-%d")
 70             try:
 71                 book['publish'] = item.xpath(
 72                     './p[@class="search_book_author"]/span[3]/a/text()').extract_first().strip()
 73             except Exception as e:
 74                 book['publish'] = "暂无出版社信息"
 75             try:
 76                 book['brief'] = item.xpath('./p[2]/text()').extract_first().strip()
 77             except Exception as e:
 78                 book['brief'] = "暂无书籍简述"
 79             yield scrapy.Request(callback=self.parse_book, cookies=self.cookie_dict,
 80                                  headers=DEFAULT_REQUEST_HEADERS, meta={'item': book}, url=book['link'])
 81 
 82     def parse_book(self, response):
 83         """跟进url解析书籍详情"""
 84         book = response.meta['item']
 85         book['detail'] = {}
 86         info = response.xpath("//ul[@class='key clearfix']/li/text()").extract()
 87         print(info)
 88         for i in info:
 89             t = i.partition("")
 90             k = t[0].replace(" ", "")
 91             v = t[-1]
 92             if v == '':
 93                 v = "暂无详情"
 94             book['detail'][k] = v
 95 
 96         # 这个作者详情当当不同的板块有不同的取法,看了下有很多种,写起来挺麻烦的就暂时这样处理
 97         try:
 98             book['detail']['author_detail'] = response.xpath("//span[@id=‘authorIntroduction-show’]/text()")\
 99                 .extract_first().replace('\n', '')
100         except Exception as e:
101             book['detail']['author_detail'] = "暂无作者信息"
102 
103         yield book
View Code

说明下:cookie在本次爬虫中可以不用加,我加上只是为了测试。请求头做太多的定制。

piplines.py
 1 from scrapy.conf import settings
 2 from scrapy import signals
 3 from pymongo import MongoClient
 4 
 5 
 6 class DangDangSpiderPipeline(object):
 7     def __init__(self):
 8         # 获取setting中主机名,端口号和集合名
 9         host = settings['MONGODB_HOST']
10         port = settings['MONGODB_PORT']
11         dbname = settings['MONGODB_DBNAME']
12         col = settings['MONGODB_COL']
13 
14         # 创建一个mongo实例
15         client = MongoClient(host=host, port=port)
16 
17         # 访问数据库
18         db = client[dbname]
19 
20         # 访问集合
21         self.col = db[col]
22 
23     def process_item(self, item, spider):
24         data = dict(item)
25         self.col.insert(data)
26         return item
View Code
settings.py
 1 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 \
 2               Safari/537.36 SE 2.X MetaSr 1.0'
 3 
 4 ROBOTSTXT_OBEY = False
 5 
 6 DOWNLOAD_DELAY = 5
 7 
 8 COOKIES_ENABLED = False
 9 
10 DEFAULT_REQUEST_HEADERS = {
11     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
12     'Accept-Language': 'en',
13     "authority": " www.dangdang.com",
14     "method": "GET",
15     "path": "/",
16     "scheme": "http",
17     "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
18     "accept-encoding": 'gzip, deflate, br',
19     "accept-language": 'en-US,en;q=0.9',
20     "referer": None,
21     "upgrade-insecure-requests": 1,
22     "User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 \
23                       Safari/537.36 SE 2.X MetaSr 1.0'
24 }    # 可以不写使用默认的
25 
26 ITEM_PIPELINES = {
27     'dangdangspider.pipelines.DangDangSpiderPipeline': 300,
28 }
29 
30 # Mongodb
31 # 主机环回地址
32 MONGODB_HOST = '127.0.0.1'
33 # 端口号,默认27017
34 MONGODB_POST = 27017
35 # 设置数据库名称
36 MONGODB_DBNAME = 'dangdangs'
37 # 设置集合名称
38 MONGODB_COL = 'books'
View Code

settings.py请求头可以不用写,使用默认的就行,我之所以加上也是测试用的,同理上面写了两个user-agent。just for fun  :-)

这次爬虫其实主要的目的是,我想了解下scrapy中的cookie是如何加上的,以及怎么用,有多少中用法!scrapy中的cookie无论是在官方文档或者一些大V的博客里都很少介绍到,但是他在实际的场景中却会用到,那就是模拟登录的时候。或者向淘宝那样需要携带cookie才能访问页面的时候。关于如何使用cookie请查看我的另一篇博客

 

转载于:https://www.cnblogs.com/pontoon/p/10360487.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1.项目介绍 典型电子商务系统(在线购物平台)。模拟了当当系统部分功能。 2.功能需求 1)用户管理模块(3天)user 实现登录、注册功能 2)产品浏览模块(2天)main 实现主界面和类别浏览功能 3)购物车模块(1.5天)cart 实现购买、变更数量、删除等功能 4)生成订单模块(1.5天)order 订单确认、填写送货地址、生成订单功能 3.技术应用 1)技术架构 Struts2,JDBC(连接池),jQuery,Ajax 2)设计思想 MVC和分层设计思想 a.显示层:JSP组件(jQuery,Ajax) b.控制层:Struts2控制器组件、Action组件 c.业务层:Bean组件 d.数据访问层:DAO组件(JDBC) 4.数据库设计 1)数据库导入 create database dangdang; //创建库 use dangdang; //进入dangdang库 set names utf8; //设置连接和发送SQL编码 source 路径/dangdang.sql; //导入sql文件 2)数据表功能 a.d_user(用户信息表) 存储了用户信息,涉及登录和注册功能 b.d_receive_address(收货地址信息表) 存储了收货地址信息,涉及填写送货地址功能 c.d_category(类别信息表) 存储了图书的类别信息,涉及主界面左侧类别菜单功能 d.d_book(图书信息表) 存储了图书的特有信息,涉及产品浏览等功能 e.d_product(产品信息表) 存储了各类型产品的共通信息字段。 f.d_category_product(类别和产品对应关系表) 存储了类别和产品之间包含关系,涉及产品浏览功能 g. d_order(订单信息表) 存储了订单信息,涉及创建订单功能 h. d_item(订单明细表) 存储了订单中所购买的商品信息,涉及创建订单功能。 5. 搭建工程结构 1)引入需要的开发包 struts2开发包 jdbc开发包 dbcp连接池开发包 2)src文件结构 org.tarena.dang.action :控制层 org.tarena.dang.action.user :用户模块的action org.tarena.dang.action.main :产品浏览的action org.tarena.dang.action.order :订单的action org.tarena.dang.action.cart :购物车的action org.tarena.dang.service :业务层 org.tarena.dang.dao :数据访问层 org.tarena.dang.entity :实体类 org.tarena.dang.util :工具类 org.tarena.dang.interceptor :拦截器 3)struts配置文件结构 web.xml(配置Filter控制器) struts.xml (struts主配置文件) struts-user.xml(用户模块配置文件) struts-main.xml(浏览模块配置文件) struts-order.xml(订单模块配置文件) struts-cart.xml(购物车模块配置文件) 4)WebRoot文件结构 /user/* :用户管理的JSP /cart/* :购物车的JSP /order/* :订单的JSP /main/* :产品浏览的JSP /common/* :页眉、页脚等共同JSP /js/* : 放置js脚本文件 /css/* :放置css样式文件 /images/* :放置页面图片文件 /productImages/* :放置产品图片 -----------------连接池的优点----------------- a.可以管理Connection对象,并且将Connection数量控制在一个安全范围内。提高数据库的访问安全性。 b.连接池中的Connection对象与数据库保持连接状态,避免频繁的建立和销毁连接。 ============用户管理模块============== 1.注册需求 1)表单验证(采用js+Ajax) 邮箱:非空、格式、唯一性(ajax) 昵称:非空、格式 密码:非空、格式 确认密码:非空、与密码一致 验证码:非空、正确性(ajax) 2)将表单信息写入数据表d_user 编写实体类、DAO、Action 3)给用户邮箱发送验证码 引入commons-email.jar,email.jar 参考EmailUtil工具类代码 4)进入邮箱验证页面verify_form.jsp 2.邮箱验证 1)表单验证 验证码:非空、正确性(ajax) 正确后跳转到成功提示界面:window.location = "register_ok.jsp"; 2)Action逻辑 a.利用验证码去d_user检查 b.如果正确,将d_user的is_email_verify字段更新成Y;不正确在verify_form.jsp提示“验证失败” c.跳转到register_ok.jsp 3.用户登录 1)表单验证 邮箱:非空、格式 密码:非空 2)Action逻辑 a.检测Email和密码是否正确,失败回到login_form.jsp提示 b.检测is_email_verify邮箱是否通过验证,未通过进入verify_form.jsp c.更新最后一次登录时间last_login_time和IP地址last_login_ip。 d.将用户信息放入session。 e.都正确进入/main/main.jsp 4.main.jsp页面的页眉部分,显示用户是否登录的状态 如果用户已登录,显示"欢迎XXX,【登出】" 如果用户未登录,显示"【登录】【注册】" 数据库 模型 其实项目目 还有不少缺陷 需要完整、大家可以自行修改、里面有一处bug关于购物车的,注入问题、大家自己找找吧

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值