# -*- coding : utf-8 -*-
# @Time : 2021/7/9 21:34
# @Author : 郭金威
# @File : 豆瓣.py
# @Software : PyCharm
from bs4 import BeautifulSoup # 网页解析
import re # 正则表达式,进行文字匹配
import urllib.request , urllib.error # 制定URL,获取网页数据
import xlwt # 进行execl操作
import sqlite3 # 进行数据库操作
def main() :
baseurl = "https://movie.douban.com/top250?start="
# 1. 爬取网页
datalist = getData(baseurl)
savepath = ".\\豆瓣电影Top250.xls"
# 2. 逐一解析数据
# 3. 保存数据
# savaDate(savepath)
askURL("https://movie.douban.com/top250?start=0")
# 爬取网页
def getData(baseurl) :
datalist = []
datalist = []
# 调用获取页面信息的函数10次
for i in range(0 , 10) :
url = baseurl + str(i * 25)
# 保存获取到的网页源码
html = askURL(url)
# 2. 逐一解析数据
return datalist
# 得到指定一个URL的网页内容
def askURL(url) :
# head作用:模拟浏览器头部信息,向豆瓣服务器发送信息
# 用户代理,表示甘肃豆瓣服务器,我们是什么类型的机器,浏览器(本质上是告诉浏览器,我们可以接受什么水平的文件内容)
head = {
"User-Agent": "Mozilla / 5.0(Linux;Android6.0;Nexus5Build / MRA58N) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 91.0.4472.106MobileSafari / 537.36"
}
request = urllib.request.Request(url , headers= head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8")
print(html)
except urllib.error.URLError as e :
if hasattr(e , "code") :
print(e.code)
if hasattr(e , "reason") :
print(e.reason)
return html
# 3. 保存数据
def savaDate(savepath) :
print("save......")
if __name__ == "__main__" : # 当程序执行时
# 调用函数
main()
19.获取数据源码
最新推荐文章于 2022-12-27 15:34:15 发布
本文介绍了使用Python爬取豆瓣电影Top250排行榜数据,解析网页源码,并将其保存至Excel和数据库的过程。通过BeautifulSoup和urllib库实现数据获取,展示了基本的网络请求和数据解析技术。
摘要由CSDN通过智能技术生成