爬取多个豆瓣电影名

最新推荐文章于 2021-02-15 22:13:07 发布

猄为天人

最新推荐文章于 2021-02-15 22:13:07 发布

阅读量548

点赞数

分类专栏： python py爬虫练习

本文链接：https://blog.csdn.net/Zitray/article/details/103519037

版权

python 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

py爬虫练习

3 篇文章 0 订阅

订阅专栏

利用网页结构的相似性

爬虫的目的，是从网站中 自动化 的批量提取数据。

从以下链接中提取电影的标题和标题后的年份:

https://movie.douban.com/subject/1292052/
https://movie.douban.com/subject/1962665/
https://movie.douban.com/subject/26752088/

from requests_html import HTMLSession
session = HTMLSession()
links = ['https://movie.douban.com/subject/1292052/',
         'https://movie.douban.com/subject/1962665/',
         'https://movie.douban.com/subject/26752088/']
for index in links:
    r = session.get(index)
    title = r.html.find('#content > h1 > span:nth-child(1)', first=True)
    year = r.html.find('#content > h1 > span.year', first=True)
    print(title.text, year.text)

链接相似外观相似相似的网页结构。这两个相似性是爬虫能够从一系列网站中自动化提取数据的重要基础

F:\program\python3.6.1\python.exe E:/Study/py爬虫/学习/爬虫/批量提取豆瓣.py
肖申克的救赎 The Shawshank Redemption (1994)
银河铁道之夜 銀河鉄道の夜 (1985)
我不是药神 (2018)

Process finished with exit code 0