爬取BBC评选21世纪电影TOP100

本文记录了一位水利专业的学生自学Python爬虫的过程,目标是爬取BBC评选的21世纪电影TOP100。使用requests和BeautifulSoup库解析网页,通过xlwt库将数据导出到Excel。文章详细阐述了爬取思路,包括获取网页内容、解析HTML结构、提取电影信息,并提出了在爬取过程中遇到的评分显示问题,可能是由于动态加载导致。
摘要由CSDN通过智能技术生成

水利dog自学python之爬虫初体验

目标:爬取"bbc评选21世纪电影TOP100"电影信息

url 链接:http://movie.mtime.com/list/1449.html

技术路线: requests-bs4-xlwt库

基本思路:通过requests库获取html内容,通过BeautifulSoup库对html进行解析。理解html树形标签,通过find_all()以及find()方法提取电影相关内容。通过xlwt库将数据输出到excel文件。通过url拼接处理翻页。

定义三个函数。分别是获取网页内容getHTMLText();对网页进行解析并提取电影信息的parse_html();以及主函数main()

先导入相关库,主要用到requests库,BeautifulSoup库以及xlwt库

'''获取时光网BBS评选的TOP100'''
import requests
from bs4 import BeautifulSoup
import xlwt
START_URL='http://movie.mtime.com/list/1449'
wbk = xlwt.Workbook()  #创建一个excel工作簿
sheet = wbk.add_sheet('sheet1')  #创建一个sheet
n=1   #全局变量n 用于控制输出到excel时换行

1.getHTMLText()函数。

通过requests库获取网页内容,采用try-except形式的固定模板:

def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30) 
        r.raise_for_status()
        r.encoding=r.apparent_encoding
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值