Python爬虫技术2:准备工作
b站学习:https://www.bilibili.com/video/BV12E411A7ZQ
1.分析网址的规律(URL)
2.按F12分析网页
关注user-agent和cookie。
3.编码规范
def main():
print("hello")
if __name__ == "__main__": #当程序执行时(入口)
#调用函数
main()
4.引入模块
#引入自定义模块
from test1 import t1 #from 文件夹(包) import 文件
print(t1.add(3,5))
#引入系统模块
import sys
import os
#引入第三方模块
import re
需要引入的模块:
先自行在Python interpreter中下载
from bs4 import BeautifulSoup #网页解析,获取数据
import re #正则表达式,进行文件匹配
import urllib.request,urllib.error #指定URL,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作
准备工作结束后完成的代码:
#-*- coding = utf-8 -*-
#@Time : 2020/9/8 23:17
#@Author : Vivian
#@File : spider.py
#@Sofeware : PyCharm
from bs4 import BeautifulSoup #网页解析,获取数据
import re #正则表达式,进行文件匹配
import urllib.request,urllib.error #指定URL,获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQLite数据库操作
def main():
baseurl="https://movie.douban.com/top250?start="
#1.爬取网页
datalist=getData(baseurl)
savepath=".\\豆瓣电影Top250.xls"
#3.保存数据
saveData(savepath)
#爬取网页
def getData(baseurl):
datalist=[]
# 2.逐一解析数据
return datalist
#保存数据
def saveData(savepath):
pass
if __name__ == "__main__": #当程序执行时(入口)
#调用函数
main()