爬取BBC评选21世纪电影TOP100

最新推荐文章于 2022-08-08 20:18:20 发布

想学python的水利dog

最新推荐文章于 2022-08-08 20:18:20 发布

阅读量1.2k

点赞数

文章标签： python 爬虫时光网电影TOP100

本文链接：https://blog.csdn.net/qq_42060841/article/details/80071066

版权

本文记录了一位水利专业的学生自学Python爬虫的过程，目标是爬取BBC评选的21世纪电影TOP100。使用requests和BeautifulSoup库解析网页，通过xlwt库将数据导出到Excel。文章详细阐述了爬取思路，包括获取网页内容、解析HTML结构、提取电影信息，并提出了在爬取过程中遇到的评分显示问题，可能是由于动态加载导致。

摘要由CSDN通过智能技术生成

水利dog自学python之爬虫初体验

目标：爬取"bbc评选21世纪电影TOP100"电影信息

url 链接：http://movie.mtime.com/list/1449.html

技术路线： requests-bs4-xlwt库

基本思路：通过requests库获取html内容，通过BeautifulSoup库对html进行解析。理解html树形标签，通过find_all()以及find()方法提取电影相关内容。通过xlwt库将数据输出到excel文件。通过url拼接处理翻页。

定义三个函数。分别是获取网页内容getHTMLText()；对网页进行解析并提取电影信息的parse_html()；以及主函数main()

先导入相关库，主要用到requests库，BeautifulSoup库以及xlwt库

'''获取时光网BBS评选的TOP100'''
import requests
from bs4 import BeautifulSoup
import xlwt
START_URL='http://movie.mtime.com/list/1449'
wbk = xlwt.Workbook()  #创建一个excel工作簿
sheet = wbk.add_sheet('sheet1')  #创建一个sheet
n=1   #全局变量n 用于控制输出到excel时换行

1.getHTMLText()函数。

通过requests库获取网页内容，采用try-except形式的固定模板：

def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30) 
        r.raise_for_status()
        r.encoding=r.apparent_encoding

最低0.47元/天解锁文章

想学python的水利dog

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬取BBC评选21世纪电影TOP100

水利dog自学python之爬虫初体验目标：爬取"bbc评选21世纪电影TOP100"电影信息url 链接：http://movie.mtime.com/list/1449.html技术路线： requests-bs4-xlwt库基本思路：通过requests库获取html内容，通过BeautifulSoup库对html进行解析。理解html树形标签，通过find_all()以及find()方法提...
复制链接

扫一扫