Python 爬虫抓取豆瓣电影 Xpath方法解析html

最新推荐文章于 2024-05-18 20:31:25 发布

_七七

最新推荐文章于 2024-05-18 20:31:25 发布

阅读量1.3k

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_43472877/article/details/103008358

版权

大二下期做爬虫时用的Xpath方法抓取豆瓣电影。

#//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]

#  div[1]、span[1]表示要查找的是该标签下的第1个div标签，第1个span标签。
#  span标签可以用方法span[1]/text()取出其中的内容，pan[1]/@class可以取出属性值。/@src图片路径

#  电影封面的下载:找到图片的链接地址。调用函数urllib.request.urlretrieve()

#urllib返回返回的html是字符串格式，需要用tree.HTML转化成xpath能处理的对象。
#观察html代码，每一个<li> ...</li>,标签刚好对应一部电影
'''
爬取豆瓣top250电影
第一页 https://movie.douban.com/top250?start=0&filter=
第二页 https://movie.douban.com/top250?start=25&filter=
第三页 https://movie.douban.com/top250?start=50&filter=

data_title ---电影名称
data_info  ---电影信息（导演、主演、上映时间）
data_quote ---电影引言
data_score ---电影评分
data_num   ---电影评论人数
data_picturl---电影封面链接

urllib.request.urlretrieve("https://movie.douban.com/top250?start=0&filter=",filename=r"C:\Users\Administrator\PycharmProjects\untitled\爬虫\没用的文件\豆瓣电影top250第一页.html")
'''

import urllib.request
from lxml import etree

#构造函数，抓取第i页
def crawler(i):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"}

    #构造第i页的网址
    url = "https://movie.douban.com/top250?start="+ str(25*i)+"&filter="

    #发起请求，获得返回html代码并保持在变量res中
    res = urllib.request.urlopen(url).read().decode('utf-8')

    # 将返回的字符串格式的html代码转换成xpath能处理的对象
    res = etree.HTML(res) #解析

    #选取行列表,存在了元素对象列表

    datas = res.xpath('//*[@id="content"]/div/div[1]/ol')
    a = 0
    for data in datas:
        #list 1  //*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]
        #list 2  // *[ @ id = "content"] / div / div[1] / ol / li[2] / div / div[2] / div[1]
        #   //*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[2]/p[1]
        #   //*[@id="content"]/div/div[1]/ol/li[2]/div/div[2]/div[2]/p[1]
        for n in range(1,26):
            data_title = data.xpath('//*[@id="content"]/div/div[1]/ol/li['+str(n)+']/div/div[2]/div[1]/a/span[1]/text()')
            data_info = data.xpath('//*[@id="content"]/div/div[1]/ol/li['+str(n)+']/div/div[2]/div[2]/p[1]/text()')
            data_quote = data.xpath('//*[@id="content"]/div/div[1]/ol/li['+str(n)+']/div/div[2]/div[2]/p[2]/span/text()')
            data_score = data.xpath('//*[@id="content"]/div/div[1]/ol/li['+str(n)+']/div/div[2]/div[2]/div/span[2]/text()')
            data_num = data.xpath('//*[@id="content"]/div/div[1]/ol/li['+str(n)+']/div/div[2]/div[2]/div/span[4]/text()')
            data_picturl = data.xpath('//*[@id="content"]/div/div[1]/ol/li['+str(n)+']/div/div[1]/a/img/@src')
            print("No:" + str(i * 25 + a + 1))
            print(data_title)

            with open(r"C:\Users\Administrator\PycharmProjects\untitled\爬虫\没用的文件\豆瓣top250.txt", "a",encoding='utf-8') as f:
                f.write("No:"+str(i * 25 + a + 1)+'\n')
                f.write("***"+str(data_title)+"***"+'\n')
                f.write("电影信息：\n"+str(data_info[0]).strip()+'\n')
                f.write("电影信息：\n"+str(data_info[1]).strip()+'\n')   #strip去除收尾空格
                f.write("引言："+str(data_quote)+'\n')
                f.write("评分："+str(data_score)+'\n')
                f.write("热度:"+str(data_num)+"\n")
                f.write("电影图片链接:"+str(data_picturl)+"\n")
                f.write('\n')
            a+=1

for i in range(10):
    crawler(i)

_七七

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Python 爬虫抓取豆瓣电影 Xpath方法解析html

大二下期做爬虫时用的Xpath方法抓取豆瓣电影。#//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]# div[1]、span[1]表示要查找的是该标签下的第1个div标签，第1个span标签。# span标签可以用方法span[1]/text()取出其中的内容，pan[1]/@class可以取出属性值。...
复制链接

扫一扫