dd爬虫学习

终端中输入 scrapy startproject name,和 scrapy genspider -t basic filename dominename

编译器中打开文件,在items中输入对应 name = scrapy.Field()

设定爬虫文件中,导入所需要的库from ***.items import ***Item

设定item = ***Item(),之后一次设定所对应的title.comment.link等信息,再通过response.xpath("").extract()的方式对源代码中所需内容进行抓取。

<a title=" Python基础教程(第3版)" ddclick="act=normalResult_picture&pos=25218035_3_1_q" class="pic" name="itemlist-picture" dd_name="单品图片" href="http://product.dangdang.com/25218035.html" target="_blank" >

抓取title信息时候,定位选择在class="pic"上,搜索得页面60是信息,与实际信息相对。因此利用

response.xpath('//a[@class="pic"]/text()').extract()进行抓取。comment以及link同类。

之后yied item,向item返回数据。

http://search.dangdang.com/?key=python&act=input&sort_type=sort_sale_amt_desc&page_index=5

通过上述发现网页构造规律,提取url

通过yield Request返回,再通过回调函数调给下一次请求。

在setting中打开pipelines的设定,再更改pipelines.py

for i in range(0,len(item["title"]):

    title = item["title"][i]

以此类推,赋予comment,link相对应的值。

在终端中,通过scrapy crawl进行操作

得到结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值