Python_爬虫_requests和bs4

最新推荐文章于 2021-02-15 22:13:07 发布

AI 黎明

最新推荐文章于 2021-02-15 22:13:07 发布

阅读量238

点赞数

分类专栏： Python 文章标签： python requests bs4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liming_2464/article/details/96020831

版权

Python 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

#_爬虫_豆瓣TOP电影排行榜

import requests     # 爬取网页
import bs4      # 检索解析数据

host = 'https://movie.douban.com/top250'        # 网址


# 找出一共有几个页面
def find_depth(res):
    soup = bs4.BeautifulSoup(res.text, 'html.parser')
    depth = soup.find('span', class_='next').previous_sibling.previous_sibling.text
    return int(depth)


# 解析网页内容
res = requests.get(host)
depth = find_depth(res)

result = []
for i in range(depth):
    url = host + '?start=' + str(25*i) + '&filter='        # 找下一个网址和上一个网址的规律
    res = requests.get(url)
    soup = bs4.BeautifulSoup(res.text, 'html.parser')
    targets = soup.find_all('div', class_='hd')
    for each in targets:
        # print(each.a.span.text)
        # result.extend(each.a.span.text)
        result.append(each.a.span.text + '\n')     # 把每一条添加进结果


with open("豆瓣TOP250电影.txt", "w", encoding="utf-8") as f:        # 在同一个文件夹下，创建豆瓣TOP250电影.txt，并写入数据
    for each in result:
        f.write(each)

if __name__ == "__main__":      # 测试使用，如果调用程序则不运行
    for each in result:
        print(each)

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

AI 黎明 CSDN认证博客专家 CSDN认证企业博客

码龄5年

48: 原创

8万+: 周排名

14万+: 总排名

11万+: 访问

: 等级

1415: 积分

44: 粉丝

89: 获赞

27: 评论

249: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python_爬虫_爬取豆瓣Top250电影排行榜
福气男孩: 第一个核心程序运行，没有任何显示，是怎么回事
pytorch-CroosEntropyLoss使用详解（多维）
MaarioLu: 可以去查一下手册，https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html?highlight=crossentropy#torch.nn.CrossEntropyLoss。未设reduction，默认reduction = 'mean'，所以输出的是一个平均值
pytorch-CroosEntropyLoss使用详解（多维）
uestc_hjw: 您好，我pytorch版本是1.10.0，复制您的示例代码： >>> loss = nn.CrossEntropyLoss() >>> input = torch.randn(3, 5, 6, 6, requires_grad=True) >>> target = torch.empty(3, 6, 6, dtype=torch.long).random_(2) >>> output = loss(input, target) 发现输出output的是一个值，维度并不是batch_size, W, H
PyTorch_GPU加速测试
twilightIRIS: 您好！我对您的测试做了一些改变测试，结果遇到了一些问题——将两个变量增大了一些，然后运行会发现程序会吃C盘空间（我用pytorch训练神经网络时也会这样） [code=python] a = torch.randn(100000, 10000) # 返回10000行1000列的张量矩阵 b = torch.randn(10000, 2000) # 返回1000行2000列的张量矩阵 [/code] 请问您知道这怎么回事吗
深度学习_卷积神经网络
tiantian的春眠不觉晓: 请问用的哪一本深度学习的书

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。