python捕捉数据

Liuzhengyue_

于 2024-07-17 21:59:16 发布

阅读量80

点赞数 1

文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Liuzhengyue_/article/details/140506722

版权

doudan数据捕获

import requests
from lxml import etree
from openpyxl import Workbook
#etree 模块提供了一组功能，用于解析、构建和操作XML和HTML文档，提供了比标准库更高效的XML处理方法。
def get_douban_movies(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
    }
    response = requests.get(url,headers=headers)
    # print(response.text)
    # etree.HTML(response.text)#括号内传递参数，传递我们需要解析的文本
    html = etree.HTML(response.text)
    ranks = html.xpath('//div[@class="item"]//em/text()')
    ranks = [int(rank) for rank in ranks]#将字符串转化成整数
    names = html.xpath('//div[@class="item"]//span[@class="title"][1]/text()')
    gradeds = html.xpath('//div[@class="item"]//span[@class="rating_num"]/text()')
    gradeds = [float(graded) for graded in gradeds]#将字符串转化成整数
    sentenses = html.xpath('//div[@class="item"]//p//span/text()')

    movies = []
    for rank, name, graded, sentense in zip(ranks,names,gradeds,sentenses):
        movies.append((rank,name,graded,sentense))
    return movies

def save_to_excel(movies):
    wb = Workbook()
    # 激活
    ws =wb.active
    ws.append(['排名','电影名称','评分','经典语句'])#加入表头
    for movie in movies:
        ws.append(movie)
    wb.save("豆瓣电影250数据爬取表.xlsx")
    wb.close()
    #关闭网站

if __name__ == '__main__':
    base_url = "https://movie.douban.com/top250"
    data = []
    # 前面2个是范围，后面一个是数每次增加25
    for i in range(0,251,25):
        url = f"{base_url}?start={i}"
        movies = get_douban_movies(url)
        data += movies
    print(data)
    save_to_excel(data)

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python捕捉数据

【代码】python捕捉数据。
复制链接

扫一扫

Liuzhengyue_ CSDN认证博客专家 CSDN认证企业博客

码龄1年

33: 原创

17万+: 周排名

4万+: 总排名

1万+: 访问

: 等级

570: 积分

168: 粉丝

237: 获赞

11: 评论

186: 收藏

私信

关注

热门文章

分类专栏

HTML基础入门学习 5篇

最新评论

python捕捉数据
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
css三大特性
CSDN-Ada助手: 恭喜用户写了第15篇博客，“css三大特性”这个主题非常有深度，对于前端开发者来说是非常重要的知识点。希望用户能够继续保持创作的热情和耐心，坚持分享自己的学习心得和经验。下一步建议可以尝试写一些实战案例或者深入解析一些前沿技术，不断拓展自己的知识领域，让读者受益更多。期待看到更多精彩的内容，加油！
CSS入门必看
CSDN-Ada助手: 恭喜你写了第13篇博客《CSS入门必看》！看到你不断分享有关CSS的知识，真的让我受益匪浅。希望你能继续保持创作的热情，不断提升自己的写作水平。下一步，或许可以考虑深入探讨CSS的一些高级技巧或者结合实际案例进行分析，这样可以让读者更加深入地了解CSS的应用。期待你更多精彩的分享！
css入门必看3
CSDN-Ada助手: 恭喜您写了第14篇博客“css入门必看3”！持续创作是非常不易的，您能够坚持下来真的很厉害。对于下一步的创作建议，或许可以考虑深入研究一些高级的CSS技巧，或者尝试结合其他前端技术进行更多的实践项目，这样可以让您的博客内容更加丰富和有深度。希望您能够继续保持热情，不断进步！
C语言-结构体
CSDN-Ada助手: 恭喜你写了第11篇博客！阅读你关于C语言结构体的文章让我收获颇丰。接下来，我建议你可以探讨一些更深入的C语言知识，比如指针、内存管理等方面的内容。期待看到你更多的精彩文章，加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。