爬虫 豆瓣电影250 B站爬虫编程基础5天速成

该代码实现了一个简单的Python爬虫,用于抓取豆瓣电影Top250列表的前100部电影信息。通过`urllib.request`和`BeautifulSoup`库,程序首先发送HTTP请求获取网页内容,然后使用BeautifulSoup解析HTML,找到包含电影信息的`div`元素。目前,程序仅打印出这些元素,但具备了数据保存的基础结构。
摘要由CSDN通过智能技术生成

代码部分

# -*- codeing = utf-8 -*- 
# @Time :2021/8/5 17:46 
# @Author:Sarah
# @File : spider.py 
# @Software: PyCharm

from bs4 import BeautifulSoup
import re
import urllib.request,urllib.error
import sqlite3

def main():
    baseurl = "https://movie.douban.com/top250?start="
    # 1爬取网页
    # 获取
    datalist = getData(baseurl)
    savepath = ".\\豆瓣电影top250.xls"
    #saveData(savepath) #保存

    #3保存数据
#2爬取网页并解析
def getData(baseurl):
     datalist = []
     for i in range(0,10):
        url = baseurl + str(i*25)
        html = askURL(url) #保存获取到的网页源码


        soup = BeautifulSoup(html,'html.parser')
        for item in soup.findAll('div', class_='item'):  # 查找符合要求的字符串
            print(item)

     return datalist


#得到指定一个URL的网页内容
def askURL(url):
    head = {
        "User-Agent":"Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 92.0 .4515 .131 Safari / 537.36"
    }
    request = urllib.request.Request(url,headers=head)
    html = ''
    try:
        #接受到的封装对象
        response = urllib.request.urlopen(request)
        html = response.read().decode('utf-8')
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

    return html

if __name__ == '__main__':
    main()


#逐一解析数据
     # 2解析数据
# 保存数据
def saveData(savepath):
   print("保存好了")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值