#-*- coding=utf-8 -*-#@Time : 2020/12/16 0016 下午 7:09#@Author :东南大学软件学院陈洋#@File :spider.py#@Software :PyCharm
from bs4 import BeautifulSoup #网页解析,获取数据
import re #正则表达式,进行文字匹配
import urllib.request,urllib.error #制定URL,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行sqlite数据库操作
defmain():
baseurl="https://movie.douban.com/top250?start="
#1.爬取网页
datalist=getData(baseurl)
savepath=".\\豆瓣电影Top250.xls"
#3.保存数据
#saveData(savepath)
#askURl("https://movie.douban.com/top250?start=0")
#影片详情链接的规则
findLink=re.compile(r'') #创建正则表达式对象,表示规则(字符串的模式)#影片图片
findImgSrc=re.compile(r'
findTitle=re.compile(r'(.*)')#影片评分