爬虫总是返回空值

最新推荐文章于 2024-06-29 11:25:42 发布

Lumos-kun

最新推荐文章于 2024-06-29 11:25:42 发布

阅读量8.7k

点赞数

文章标签：求助爬虫控制

本文链接：https://blog.csdn.net/weixin_43134003/article/details/89496530

版权

在尝试使用Python爬虫从猫眼电影网站获取top100数据时，遇到返回空值的问题。代码中定义了get_html函数获取网页源代码，parsehtml函数解析HTML并提取电影名和主演，但结果为空。问题可能在于正则表达式不匹配或网站反爬策略导致请求被阻止。

摘要由CSDN通过智能技术生成

为什么我的啊
各位大哥帮我看看吧
代码描述：这是一个爬取猫眼电影top100的爬虫
import requests
import re

def get_html(url):
kv = {
‘User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3724.8 Safari/537.36’
}
try:
r = requests.get(url,headers = kv,timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return “”

def parsehtml(ilt , html):
movielink = re.findall(r’p.?title=(.?)data’,html,re.S)
actorlink = re.findall(r’.?star">(.?)

’,html,re.S)
for i in range(len(movielink)):
movie = eval(movielink[i].split(’:’)[3])
actor = actorlink[i].split(’:’)[-2]
ilt.append([movie , actor])

def printmoviel(ilt):
tplt = “{:4}\t{:8}\t{:16}”
print(tplt.format(“序号”, “电影”, “主演”))
count = 0
for

最低0.47元/天解锁文章

Lumos-kun

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
爬虫总是返回空值

为什么我的啊各位大哥帮我看看吧代码描述：这是一个爬取猫眼电影top100的爬虫import requestsimport redef get_html(url):kv = {‘User-Agent’:’ Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74....
复制链接

扫一扫