超简单爬虫示例(爬电影名称),一看就会

import requests
import re

url="https://piaofang.maoyan.com/getBoxList?date=1&isSplit=true"
headers={'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'}
#User-Agent 可以在网址中的后台查看,下面有解释
resp=requests.get(url,headers=headers)
#常规编码输出设置
resp.encoding='utf-8'
html=resp.text #得到的网址信息
print(html) #打印 输出结果如下图

html的输出

#接着上面的代码
infos=re.findall('"movieName":"(.*?)"',html)
for i in infos:
    print(i) #结果如下图

爬到的相关电影名称

相关解释

  1. requests、re是Python库,如果没有需要下载。
  2. url是想要爬的网址,这个网址是在后台找的,有尝试过爬猫眼的应该都知道,进猫眼电影数据官网,查看其源代码发现根本找不到电影名称。(以谷歌浏览器示例),既然没有就右键一下,点击检查,会出现如下图界面:
    在这里插入图片描述
    然后点击Network,刷新页面,点击放大镜,在搜索框中搜一下主页中的电影名称
    在这里插入图片描述
    这里以搜索“长津湖”为例
    在这里插入图片描述
    如上图所示可以点击左边的那些红框,然后看Preview中的代码里有没有相应文字(里面的有些三角形符号是可以展开的),如果找到了相关文字,就点击Headers,红框中就可以作为url,如下图:
    在这里插入图片描述
  3. 其中User-Agent也可以在其中找到,复制粘贴即可,不要忘记引号。
    在这里插入图片描述
  4. 对于infos=re.findall(’“movieName”:"(. *?)"’,html),findall是re里的方法,就是字面意思。括号中的html就是查找源,“movieName”:"(.*?)"这个是要查找内容的一种正则表达式,(.*?)表示获取最短的能满足条件的字符串,所以这里是表示获取 “movieName”:后引号里的最短字符串。
  5. for i in infos: 表示遍历infos这个列表。

如若侵权,请联系删除。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值