scrapy3

Item

Item对象是简单的容器,保存爬取到的数据,类似Python字典的用法。

Declaring Item

import scrapy

class Product(scrapy.Item):
    name = scrapy.Field()
    price = scrapy.Field()
    stock = scrapy.Field()
    last_updated = scrapy.Field(serializer=str)

其实没什么好说的,先做个标记,等后面实际用到的时候,在做其他的笔记。

 

------------------------------------------濒危线-----------------------------------------------------

 

 

这个编辑的比较烂,只是根据学习的情况进行记录

最近看了一些scrapy的项目,但是没有见到抓取动态网页的例子,自己又仔细的查了一下,发现它真的不好用在采集动态网页上,我的目标是采集新浪微博,这是要死的节奏啊。

我查到网上几种可以采集动态网页的scrapy方法:

1.scrapy+selenium

selenium是一种自动化测试工具,以前用过Java版的写过小爬虫,但是需要打开浏览器,看起来比较丑。这种方式比较繁琐,我想到使用这种方式抓取微博,比较麻烦,所以弃坑。

2.selenium+scrapy+phandomjs实现

phantomjs相当与一种浏览器,可以不打开浏览器界面进行任务的请求。其它的和上面的方式一样。

3.scrapy+Spanish这种方式可以解析动态网页

 

 

对于新浪微博有人使用scrapy进行了采集,但是采集的只是用户信息,而且通过的是移动版的微博网站。移动版的微博网站,它进行搜索的参数不知为何没有体现在url上,这还是第一次见到,我就放弃使用scrapy采集微博了,忙完这个就抽空继续看看scrapy,这个还是很有用的。

 

这样看下来,还是回到使用selenium进行新浪微博的采集,因为使用selenium可以模拟人的操作,所以无需组合url获得响应,所以打算从移动版的微博网站采取信息,这个网站的结构更加的简单,容易定位元素。

转载于:https://my.oschina.net/u/3411375/blog/877921

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值