爬虫-豆瓣电影

最新推荐文章于 2024-08-08 12:32:08 发布

m0_46247241

最新推荐文章于 2024-08-08 12:32:08 发布

阅读量585

点赞数 1

本文链接：https://blog.csdn.net/m0_46247241/article/details/106773062

版权

最近在B站上系统的跟着学做了个Python爬虫项目

（是IT私塾出品的、要保护版权、超喜欢老师的讲课风格、一点都不拖拉。这个课让我收获很大。。。爬虫入门从这门课开始、整个下来也会清楚明白需要补充什么知识）
记录一下新知识！

项目介绍：
在这里插入图片描述
爬虫分为四个步骤：准备工作 - 获取数据 - 解析内容 - 保存数据

1、准备工作：

其实、就是对想要爬取的页面进行分析、在这里URL分析发现一个规律就是页面一共包含250条电影数据、分10页、每页25条、对应每页的网址不同之处是：最后的数值是（页数-1）*25。分析是成败的关键之一

补：
urllib 模块是python内置的一个http请求库、包括：
urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse 解析模块

先把要用到的库引入

import sys
from bs4 import BeautifulSoup     #网页解析，获取数据
import re       #正则表达式，进行文字匹配
import urllib.request,urllib.error   #指定URL，获取网页数
import xlwt     #进行excel操作

2、获取数据：

#得到指定一个URL的网页内容
def askURL(url):
    head = {                
    #模拟浏览器头部信息，向豆瓣服务器发送消息        
    "User-Agent": "Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 80.0.3987.122  Safari / 537.36"
        }
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html

html打印下来方便我们一会做解析的、另外这里加了错误处理。
关于两类错误以及状态码我在另外一篇博客上看到了比较详细的解释。
https://blog.csdn.net/qq_40913582/article/details/82858024
记不住太多! 我是打算用到了再查的

3、解析内容

在这里插入图片描述

涉及到了正则表达式的内容、Python用re模块操作正则表达式。
需要记住一些常用的操作符、我的理解是用一些字符组合来代替一些有一定规则的文本。提取的时候、先观察想要的内容的规律，把共有的部分写出来、其余部分用正则表达式代替。。。emn。。。还的研究一下

在这里插入图片描述

#详情链接的规则、compile（pattern）是用来创建模式对象的
findLink = re.compile(r'<a href="(.*?)">')     
#创建正则表达式对象，表示规则（字符串的模式）#影片图片
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)   #re.S 让换行符包含在字符中
#影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
#影片评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#找到评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#找到影片的相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

#爬取网页
def getData(baseurl):
    datalist = []
    for i in range(0,10): #这是根据前面分析的、调用获取页面信息的函数，10次       
        url = baseurl + str(i*25)        
        html = askURL(url) #保存获取到的网页源码
        # 2.逐一解析数据        
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):#查找符合要求的字符串，形成列表
            #print(item)   #测试：查看电影item全部信息 
            data = []    #保存一部电影的所有信息
            item = str(item)
            #影片详情的链接            
            link = re.findall(findLink,item)[0]  #re库用来通过正则表达式查找指定的字符串            
            data.append(link)   #添加链接
            imgSrc = re.findall(findImgSrc,item)[0]
            data.append(imgSrc) #添加图片
            titles = re.findall(findTitle,item) #片名可能只有一个中文名，没有外国名            
            if(len(titles) == 2):
                ctitle = titles[0]  #添加中文名
                data.append(ctitle)
                otitle = titles[1].replace("/","")  #去掉无关的符号         
                data.append(otitle)  #添加外国名
            else:
                data.append(titles[0])
                data.append(' ')  #外国名字留空
            rating = re.findall(findRating,item)[0]
            data.append(rating)  #添加评分
            judgeNum = re.findall(findJudge,item)[0]
            data.append(judgeNum)  #提加评价人数
            inq = re.findall(findInq,item)
            if len(inq) != 0: 
                inq = inq[0].replace("。","") #去掉句号 
                data.append(inq)  # 添加概述
            else:
                data.append(" ")  #留空
                bd = re.findall(findBd,item)[0]
                bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd)   #去掉<br/>
                bd = re.sub('/'," ",bd)     #替换/ 
                data.append(bd.strip())     #去掉前后的空格
                datalist.append(data)       #把处理好的一部电影信息放入datalist
    return datalist

4、保存数据到Excel

#保存数据
def saveData(datalist,savepath):    
    print("save....")    
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)  
    #创建workbook对象    
    sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)    #创建工作表    
    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")    
    for i in range(0,8):        
        sheet.write(0,i,col[i]) #列名    
    for i in range(0,250):        
        print("第%d条" %(i+1))        
        data = datalist[i]        
        for j in range(0,8):
            sheet.write(i+1,j,data[j]) #数据
    book.save(savepath) #保存