记录利用Scrapy获取优酷分类地址和页面地址提取规则

分类,例如‘综艺类’

response.xpath('//*[contains(concat( " ", @class, " " ), concat( " ", "yk-filter-item", " " ))]//a').xpath("./@href").extract()


页面url
links = response.xpath('//@href').re("http://v.youku.com/v_show/id_.+?\.html")


next页面
response.xpath('//li[@class="next"]//a').xpath("./@href").extract()


标题
response.xpath('//title/text()').extract()


调用cmd命令
cmd = 'you-get --json http://v.youku.com/v_show/id_XMjc3MTkxODQyOA==.html?spm=a2htv.20009910.m_86821.5~5!3~5!2~5!2~A&from=y1.3-tv-grid-1007-9910.86827-86824-86821.8-1'
f = subprocess.Popen(cmd, shell=False, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
 (stdoutput, erroutput) = f.communicate()
print(stdoutput)
print(erroutput)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值