python爬虫入门(3)


python爬虫入门(3)


对于top250,一般的爬虫可以解决,但是在最新&热门电影的爬取时则出现了问题:

import requests
xp = etree.HTML(resp.text)
actor = xp.xpath('//*[@id="app"]/div/div[1]/div[3]/a[1]/p/span[1]')
print(actor)

y = xp.xpath('//*[@id="app"]/div/div[1]/div[3]/a[2]/p/span[1]')
print(y)

结果为空,爬了个寂寞。
会到网页发现目标问题的源代码不在网页的代码里,查询不到。

在开发者工具里可以发现,url在这里:
在这里插入图片描述
所以把这个url弄到代码里,看看data有哪些:

import requests
from lxml import etree
headers = {'User-agent':'Mozilla/5.0'}
url = 'https://movie.douban.com/j/new_search_subjects?sort=U&range=0,10&tags=&start=0'
resp = requests.get(url,headers = headers).json()

for data in resp['data']:
    print(data['directors'][0],','.join(data['casts']))
    print('\n')

现在就ok了
注意.json可以使输出更规范,而且可以根据data里面的参数,以data[x]的形式输出内容(类似于字典或者数学函数)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

It is a deal️

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值