小白之python开发：豆瓣电影top250的爬取

最新推荐文章于 2024-04-17 16:07:57 发布

奋斗的DC

最新推荐文章于 2024-04-17 16:07:57 发布

阅读量545

点赞数

分类专栏：个人学习

本文链接：https://blog.csdn.net/qq_25677123/article/details/88070754

版权

本文介绍了如何使用Python爬取豆瓣电影Top250的详细步骤，包括通过观察URL规律遍历多页数据，利用lxml和xpath提取信息，处理异常并存储为CSV文件。主要涉及网页解析、数据获取和文件写入。

摘要由CSDN通过智能技术生成

今天再次对电影网进行了一次信息爬取，和之前是有区别的，第一次爬取是对一个网页的爬取，网页的url是没发生变化的，这次爬取过程将整个网站10也得数据进行爬取，通过观察这些网页从而发现规律，不同的页面盖面的只有start=的值，因此我使用{}占位符来变化的输入start的信息，从而达到遍历10页的作用。
1.获取目标网页

# 第一页 'https://movie.douban.com/top250?start=0&filter='
# 第二页 'https://movie.douban.com/top250?start=25&filter='

doubanUrl = 'https://movie.douban.com/top250?start={}&filter='

2.解析目标网页，定义第一个函数，获取网页源代码，基本与之前一样

def getSource(url):
 # 请求目标网页
    response = requests.get(url)
    # 为了防止出现乱码，也是用uft_8
    response.encoding = "utf-8"
    # print(response.text)
    return  response.content

3.定义·第二个函数，目的获取每个电影信息，这里获取网页信息时，没有像之前那样利用etree来调用，而是使用lxml.html来获取的信息，然后使用xpath来获取具体的有用信息，//代表着获取网页中标签为div的所有满足class为info的标签，然后将他们保存到列表中继续调用然后利用一个for循环对之前获取到的整体电

最低0.47元/天解锁文章

奋斗的DC

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
小白之python开发：豆瓣电影top250的爬取

今天再次对电影网进行了一次信息爬取，和之前是有区别的，第一次爬取是对一个网页的爬取，网页的url是没发生变化的，这次爬取过程将整个网站10也得数据进行爬取，通过观察这些网页从而发现规律，不同的页面盖面的只有start=的值，因此我使用{}占位符来变化的输入start的信息，从而达到遍历10页的作用。1.获取目标网页# 第一页 'https://movie.douban.com/top250?s...
复制链接

扫一扫