实战1、爬取豆瓣电影影评-xpath解析

Justinc.

已于 2024-09-17 10:31:12 修改

阅读量488

点赞数 15

分类专栏：网络爬虫文章标签： python 爬虫

于 2024-09-16 21:51:13 首次发布

本文链接：https://blog.csdn.net/sjc122333/article/details/142307504

版权

网络爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、寻找url规律

https://movie.douban.com/top250
https://movie.douban.com/top250?start=25&filter=
https://movie.douban.com/top250?start=50&filter=

我们发现电影排行榜的url地址只有start参数发生改变而且都是25的倍数，而第一页并没有start参数，尝试加上start=0参数并去掉filer参数

排行榜url

import requests
headers = {
    "user-agent":
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36"
}
for i in range(0, 10):
    url = f"https://movie.douban.com/top250?start={i * 25}"
    response = requests.get(url=url, headers=headers)
    time.sleep(0.5)
    print(response)

2、获取电影url

打开检查工具选取电影跳转标签，使用xpath路径表达式获取电影的url

电影url

使用xpath解析进行获取

urls = []
for i in range(0, 10):
    # print(f"第{i + 1}页的url")
    url = f"https://movie.douban.com/top250?start={i * 25}"
    response = requests.get(url=url, headers=headers)

    res = response.content.decode("utf8")
    selector = parsel.Selector(res)

    url_ = selector.xpath("//div[@class='hd']/a/@href").getall()  # 获取top250电影url地址
    for j in url_:
        urls.append(j)
print(urls)

3、访问获取的电影url地址

解析评论者内容的url

评论者的url

解析电影名称

xpath获取电影名称

4、访问评论内容的url地址

评论内容的xpath路径可能不同，要多查看几个，避免偶然情况的发生

评论内容在p标签下

评论内容在p标签下

评论内容使用br换行

评论内容使用br换行

5、拼接

获取的内容可能会含有换行符，空格等，我们需要处理拼接之后的内容

    comm_homes = selector.xpath(
        "//*[@class='review-content clearfix']/p/text()|"
        "//*[@class='review-content clearfix']/br/following-sibling::text()[1]|"
        "//div[@class='review-content clearfix']//text()").getall()  # 获取评论内容
    # print(comm_homes)
    comm_home_text = "".join(comm_homes)  # 将文章内容拼接在一起
    comm_home_text = comm_home_text.replace("</p>", "").replace("\xa0", "").replace("\n", "")
    comm_home_text = comm_home_text.strip()