python初学者,五天跟着https://www.bilibili.com/video/BV12E411A7ZQ练习了一下豆瓣爬虫项目,现在回过头记录一下过程,防止以后忘掉。纯个人纪录,没有参考价值,如有错误欢迎各位大佬指正。
主要用到爬虫+flask框架。
爬取步骤:
1. 爬取网页+解析数据
2. 保存数据
1. 爬取网页+解析数据
首先使用askURL函数获取目标网页的html文件。这边用到urllib库,可以获取对应网页的html文件。
#得到指定一个URL的网页内容
def askURL(url):
head = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36"
}
#用户代理,表示告诉服务器我们是什么类型的机器(本质上是告诉浏览器我们可以接受什么水平的内容)
request = urllib.request.Request(url, headers=head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8")
#print(html)
except urllib.error.URLError as e: