一分钟python爬取豆瓣top250电影
真想说:python的强大的库,各种库。啧啧啧。是一些语言不能比的。但是个人感觉如果是要写大型后端的话,python还是不太行的
运行效果
爬取网页
话不多说,直接看代码(代码都有注释)
获得数据
可以先获取一个url的数据
哦,对了,下面User-Agent是一个反爬操作。模拟成浏览器来进行访问豆瓣服务器
解析数据
定义正则表达式,进行数据的解析
逐一解析数据
保存数据
将数据保存成xls文件
由于本人比较菜,附上完整代码,欢迎各位大神指点。
from bs4 import BeautifulSoup # 网页解析,获取数据
import re # 正则表达式,进行文字匹配
import urllib.request, urllib.error # 制定URL,获取网页数据
import xlwt
def main():
baseurl = "https://movie.douban.com/top250?start="
# 1,爬取网页
datalist = getData(baseurl)
savepath = "豆瓣电影Top250.xls" # 要保存的文件名字
# 3.保存数据
saveData(datalist,savepath)
# askURL("http://movie.douban.com/top250?start=")
# 进行正则表达式定义,定义一个规则来获取需要的东西
findLink = re.compile(r'<a href="(.*)">')
findImgSrc = re.compile(r'<img.*src="(.*?)"')
findTitle = re.compile(r'<span class="title">(.*)</span>')
# 评分
findRating = re.compile