import urllib.request,urllib.error #指定URL获取网页数据
import bs4 #网页解析数据获取
import re #正则表达式,进行文字匹配的
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作
import pymysql #进行mysql数据库操作
from bs4 importBeautifulSoup#主函数
defmain():
baseurl="https://movie.douban.com/top250?start="
#1.爬取网页 #2.逐一解析数据
dataList=getDate(baseurl)#dbpath="database.db"
#3.连接数据库,并保存数据
saveData(dataList);#askURL("https://movie.douban.com/top250?start=")
#影片详情链接的规则
findLink=re.compile(r'') #生成正则表达式对象,表示规则(字符串的模式)#影片图片的规则
findImgSrc=re.compile(r'
findTitle=re.compile(r'(.*)')#影片评分的规则
findRating=re.compile(r'
')#找到评价人数