19.获取数据源码

本文介绍了使用Python爬取豆瓣电影Top250排行榜数据,解析网页源码,并将其保存至Excel和数据库的过程。通过BeautifulSoup和urllib库实现数据获取,展示了基本的网络请求和数据解析技术。
摘要由CSDN通过智能技术生成

在这里插入图片描述

# -*- coding : utf-8 -*-
# @Time : 2021/7/9 21:34
# @Author : 郭金威
# @File : 豆瓣.py
# @Software : PyCharm

from bs4 import BeautifulSoup   # 网页解析
import re       # 正则表达式,进行文字匹配
import urllib.request , urllib.error    # 制定URL,获取网页数据
import xlwt     # 进行execl操作
import sqlite3  # 进行数据库操作


def main() :
    baseurl = "https://movie.douban.com/top250?start="
    # 1. 爬取网页
    datalist = getData(baseurl)

    savepath = ".\\豆瓣电影Top250.xls"
    # 2. 逐一解析数据
    # 3. 保存数据
    # savaDate(savepath)

    askURL("https://movie.douban.com/top250?start=0")

# 爬取网页
def getData(baseurl) :
    datalist = []

    datalist = []
    # 调用获取页面信息的函数10次
    for i in range(0 , 10) :
        url = baseurl + str(i * 25)

        # 保存获取到的网页源码
        html = askURL(url)



    # 2. 逐一解析数据
    return datalist

# 得到指定一个URL的网页内容
def askURL(url) :

    # head作用:模拟浏览器头部信息,向豆瓣服务器发送信息
    # 用户代理,表示甘肃豆瓣服务器,我们是什么类型的机器,浏览器(本质上是告诉浏览器,我们可以接受什么水平的文件内容)
    head = {
        "User-Agent": "Mozilla / 5.0(Linux;Android6.0;Nexus5Build / MRA58N) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 91.0.4472.106MobileSafari / 537.36"
    }

    request = urllib.request.Request(url , headers= head)

    html = ""
    try:
        response = urllib.request.urlopen(request)

        html = response.read().decode("utf-8")

        print(html)
    except urllib.error.URLError as e :
        if hasattr(e , "code") :
            print(e.code)
        if hasattr(e , "reason") :
            print(e.reason)

    return html


# 3. 保存数据
def savaDate(savepath) :
    print("save......")


if __name__ == "__main__" : # 当程序执行时
    # 调用函数
    main()


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值