1.引入模块
# -*- coding:UTF-8 -*-
import requests
import sys
import re
import urllib.request,urllib.error
import xlwt
from bs4 import BeautifulSoup
import sqlite3
2.简单流程
爬虫流程很简单:
- 先模拟浏览器获取网页html信息,
- 采用bs4来解析html网页信息
- 将解析后的数据用正则表达式提取自己需要的内容
- 把自己要的内容写到excel表里面,完成爬虫
def main():
baseurl = 'https://movie.douban.com/top250?start='
#1.爬取网页
datalist = getData(baseurl)
savepath = './'
saveData(savepath)