水利dog自学python之爬虫初体验
目标:爬取"bbc评选21世纪电影TOP100"电影信息
url 链接:http://movie.mtime.com/list/1449.html
技术路线: requests-bs4-xlwt库
基本思路:通过requests库获取html内容,通过BeautifulSoup库对html进行解析。理解html树形标签,通过find_all()以及find()方法提取电影相关内容。通过xlwt库将数据输出到excel文件。通过url拼接处理翻页。
定义三个函数。分别是获取网页内容getHTMLText();对网页进行解析并提取电影信息的parse_html();以及主函数main()
先导入相关库,主要用到requests库,BeautifulSoup库以及xlwt库
'''获取时光网BBS评选的TOP100'''
import requests
from bs4 import BeautifulSoup
import xlwt
START_URL='http://movie.mtime.com/list/1449'
wbk = xlwt.Workbook() #创建一个excel工作簿
sheet = wbk.add_sheet('sheet1') #创建一个sheet
n=1 #全局变量n 用于控制输出到excel时换行
1.getHTMLText()函数。
通过requests库获取网页内容,采用try-except形式的固定模板:
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding