day18作业评讲任意爬取某网站,用XPATH解析

最新推荐文章于 2024-09-14 19:55:48 发布

百事不可乐BOOM

最新推荐文章于 2024-09-14 19:55:48 发布

阅读量171

点赞数 1

文章标签： python 前端 html

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_63449560/article/details/128583981

版权

该代码示例展示了一个Python脚本，它使用requests库获取网页HTML，lxml的etree模块解析数据，并通过XPath表达式提取电影的名称、标签、描述和图片URL。数据随后被写入CSV文件中。

摘要由CSDN通过智能技术生成

day18作业任意爬取某网站,用XPATH解析

import requests
from lxml import etree
from re import findall
import csv

# 尝试
# response = requests.get('...')
# print(response)

def get_one_page(page):
    # 1.获取网页源代码
    url = f'...'
    response = requests.get(url)
    html = response.text

    # 2.解吸数据
    root = etree.HTML(html)
    # 获取所有电影对应div
    all_film_div = root.xpath('//div[@class="post-box-container"]')
    for div in all_film_div:
        name = div.xpath('./div[@class="post-box-text"]/h2/a/text()')[0]
        tag = div.xpath('./div[@class="post-box-text"]/span/a/text()')[0]
        describe = div.xpath('./div[@class="post-box-text"]/p/text()')
        if describe:
            describe = describe[0]
        else:
            describe = ''
        img_url = div.xpath('/')
        # print(name, tag, describe)

    print(f'第{page}页获取成功！')


if __name__ =='__main__':
    writer = csv.writer(open('files/films.csv', 'w', encoding='utf-8'))
    writer.writerow(['电影名称', '标签', '描述', '图片网址'])
    for x in range(1,6):
        get_one_page(x)

百事不可乐BOOM

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

百事不可乐BOOM CSDN认证博客专家 CSDN认证企业博客

码龄3年

18: 原创

133万+: 周排名

84万+: 总排名

5458: 访问

: 等级

196: 积分

4: 粉丝

11: 获赞

13: 评论

10: 收藏

私信

关注

热门文章

最新评论

day17 作业
百事不可乐BOOM: # 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36', headers=headers # 'https://movie.douban.com/top250'
day17-html和bs4
百事不可乐BOOM: 图片是我在项目里新建了文件夹然后粘贴进去的
day 16 爬虫
百事不可乐BOOM: 17-作业 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36' 'https://movie.douban.com/top250', headers=headers
day 16 爬虫
百事不可乐BOOM: 16-作业贝壳网： Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 https://cd.zu.ke.com/zufang
day14正则表达式作业
百事不可乐BOOM: 二：1：{5，15}

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

百事不可乐BOOM 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。