# -*- codeing = utf-8 -*-
# @Time : 11/30/2020 07:47 PM
# @Author : Gyp
# @File : spider
from bs4 import BeautifulSoup
import re
import urllib.request,urllib.error
import sqlite3
import xlwt
def main():
# 1 爬取网页
# 2 解析数据
# 3 保存数据 爬取网页 解析数据 保存数据
baseurl = "http://movie.douban.com/top250?start="
savepath = r".\豆瓣top250.xls"
datalist = getData(baseurl)
saveData(datalist,savepath)
def getData(baseurl):
datalist = []
#获取数据并且处理
return datalist
if __name__ == "main":
main()
Spider__整体架构__
最新推荐文章于 2024-04-17 13:30:20 发布