python爬电影排名用os bs4_编写python脚本利用requests+bs4模块爬取豆瓣电影top250的数据...

最新推荐文章于 2024-06-24 19:59:02 发布

不设目标

最新推荐文章于 2024-06-24 19:59:02 发布

阅读量1k

点赞数 1

文章标签： python爬电影排名用os bs4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42378997/article/details/114446062

版权

首先，爬取地址为以下地址：

我们的目标是爬取一页或者多页，并且输出电影的正标题，副标题、其他名、导演和主演、年份、国家、类型、评分、评分人数、名言等信息。

首先要做的是引入requests和bs4两个模块，另外我们还使用到了正则表达式模块re。

import requests # 获取网页内容

from bs4 import BeautifulSoup # 解析网页内容

import re # 正则匹配内容

然后是获取网页内容的主要逻辑，我们需要对爬虫的请求头进行伪装，也就是设置user-agent。

def get_html(URL):

header = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '

'Chrome/79.0.3945.130 Safari/537.36'}

res = requests.get(URL, headers=header) # 获取网页，并带有伪装的浏览器头，一般好的网站会有检测是不是程序访问

res.encoding = res.apparent_encoding # 设置编码，防止乱码

# print(res.text)#输出网页内容

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爬电影排名用os bs4_编写python脚本利用requests+bs4模块爬取豆瓣电影top250的数据...

首先，爬取地址为以下地址：我们的目标是爬取一页或者多页，并且输出电影的正标题，副标题、其他名、导演和主演、年份、国家、类型、评分、评分人数、名言等信息。首先要做的是引入requests和bs4两个模块，另外我们还使用到了正则表达式模块re。import requests # 获取网页内容from bs4 import BeautifulSoup # 解析网页内容import re # 正则匹...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。