爬取目标网址:https://movie.douban.com/top250
分析网站源代码,找到我们要爬取的部分。
可以发现目标数据存放在ol这个节点里面,而每一部电影又是存放在li节点里面,我们可以用requests来获得这个网站的文本信息,然后用BeautifulSoup来解析,获得我们想要的数据及信息。
我是在中国慕课嵩天老师爬虫课学习的获取网页通用代码
import requests
from bs4 import BeauifulSoup
def getHTML(url):
#用try,except来捕捉异常,使程序正常运行
try:
#不论网站有无反爬机制,都要设置headers
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36"
}
r = requests.get(url,headers = headers)
r.raise_for_status
r.encoding = r.apparent_encoding
return r.text
except:
return "error"