python爬虫小案例（爬取豆瓣电影top250的电影信息）

最新推荐文章于 2024-06-25 03:17:30 发布

镹黎同学

最新推荐文章于 2024-06-25 03:17:30 发布

阅读量3.1k

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_40913890/article/details/107013085

版权

python 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

（整个demo都是跟着视频敲的）
一、准备（流程）

访问指定URL
需要导包：import urllib.request,urllib.error
爬取数据
需要导包：import bs4
分析并保存数据
需要导包：import xlwt #存放到Excel，进行Excel操作。或import sqlite3 #存放到数据库，进行SQLite3数据库操作
主调函数
调用前面的函数
运行
调用主调函数

二、分流程
1、访问指定的url
（1）导包

import urllib.request,urllib.error

（2）调用urllib.request.Request类构造请求信息
使用方法为：urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
在这里插入图片描述
详细用法：

from urllib import request, parse

url = 'http://httpbin.org/post'
headers = {
	'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
	'Host': 'httpbin.org'
}
dict = {
	'name': 'Germey'
}
data = bytes(parse.urlencode(dict), encoding='utf8')
response = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

但在本项目只指定url和headers
本项目的用法：

head = {        #模拟浏览器头部信息，向豆瓣服务器发送信息
        "User-Agent": "Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome / 83.0.4103.106Safari / 537.36"
    }  #用户代理，表示告诉豆瓣服务器，我们是什么类型的机器、浏览器（本质上市告诉浏览器）
request = urllib.request.Request(url,headers=head)

（3）使用urllib.request.urlopen()方法发起请求，并用把浏览器相应回来的数据以字符串的形式保存，在这里做个异常处理

    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode('utf-8')
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

（4）返回值

return html

整个方法的代码如下：

import urllib.request,urllib.error  #指定URL，获取网页数据

#得到一个指定URl的网页内容
def askURL(url):
    head = {        #模拟浏览器头部信息，向豆瓣服务器发送信息
        "User-Agent": "Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome / 83.0.4103.106Safari / 537.36"
    }  #用户代理，表示告诉豆瓣服务器，我们是什么类型的机器、浏览器（本质上市告诉浏览器），这里要根据自己的浏览器信息
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode('utf-8')
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html

2. 爬取数据
（1）定义一个列表存放分析好的数据

datalist = []

（2）对url做个简单的处理，因为豆瓣电影top250的URL要指定页面的参数baseURL = “https://movie.douban.com/top250?start=”，我们要指定start=后面的数值

for i in range(0,10): #调用获取页面信息的函数，10次
     url = baseURL + str(i*25)
     html = askURL(url)  #保存获取到网页源码

（3）逐一解析数据，使用bs4.BeautifulSoup

BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.

soup = bs4.BeautifulSoup(html, "html.parser") #解析html对象，并赋值给soup

常见的使用方法：

print(soup.a)  # 拿到soup中的第一个a标签

print(soup.a.name) # 获取a标签的名称
 
print(soup.a.string)# 获取a标签的文本内容

print(soup.a.text)  # 获取a标签的文本内容

print(soup.a["href"])# 获取a标签的href属性的值
  
print(soup.a.get("href"))# 查找第一个a标签的href的属性
  
print(soup.a.attrs) # 获取a标签的所有的属性，返回一个字典
 
print(soup.find("a"))# 查找第一个a标签
  
print(soup.find_all("a"))# 查找所有的a标签
  
print(soup.find_all(id="a1"))# 查找所有的的id为a1的标签
  
print(soup.find_all(class_="sistex"))# 这里需要注意，如果需要通过class去查找，则需要一个下划线
  
print(soup.find_all(["a","p","br"]))# 查找所有的啊标签，p标签和br标签
 
 soup.find("a").attrs["class"] = "2b"# 修改某个标签的属性值
 
 del soup.find(id="a1").attrs["class"]# 删除某个标签的class属性

#查找
soup.find(re.compile("b"))#标签中有b这个字符的标签
    
soup.select("a.syster")#这个可以放标签选择器
  
soup.select(".syster .abcd")#这个可以放标签选择器
  
soup.find("a").decompose()#从当前字符串中删除第一个a标签，是在原位置进行删除

本项目的代码如下：

#2、逐一解析数据
        soup = bs4.BeautifulSoup(html, "html.parser")
        for item in soup.find_all('div',class_="item"): #查找符合要求的字符串，形成列表
            #print(item) #测试：查看电影item全部信息
            data = [] #保存一部电影的全部信息
            item = str(item)
            #影片详情的链接
            link = re.findall(findLink,item)[0]#re库用来通过正则表达式查找指定的字符串
            data.append(link) #添加链接

            imgSrc = re.findall(findImg,item)[0]
            data.append(imgSrc) #添加图片

            titles = re.findall(findTitle,item)[0] #片名可能只有一个中文名，没有外国名
            if (len(titles) == 2):
                ctitle = titles[0]
                data.append(ctitle)#添加中文名
                otitle = titles[1].replace("/","")
                data.append(otitle)#添加外国名
            else:
                data.append(titles[0])
                data.append(' ')#没有外国名的时候，这里的位置留空

            rating = re.findall(findRating,item)[0]
            data.append(rating)#添加评分

            judgeNum = re.findall(findJudge,item)[0]
            data.append(judgeNum) #添加评价人数

            inq = re.findall(findIng,item)
            if len(inq) != 0:
                inq = inq[0].replace("。","")#去掉句号
                data.append(inq)
            else:
                data.append(" ") #没有概括时留空

            bd = re.findall(findBd,item)[0]
            bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd) #去掉<br/>
            bd = re.sub('/'," ",bd)
            data.append(bd.strip()) #去掉前后的空格

            datalist.append(data) #吧处理好的一部电影信息放入datalist

（4）返回一个列表

return datalist

这个方法的完整代码：

import bs4  #网页解析，获取数据
import re   #正则表达式，进行文本匹配

#需要查找信息的正则匹配规则，作为全全局变量
#影片详情链接的规则
findLink = re.compile(r'<a href="(.*?)">') #创建正则表达式对象，表示规则（字符串的模式）
#影片图片的规则
findImg = re.compile(r'<img.*src="(.*?)"',re.S)#re.S让换行符包含在字符中
#影片名字
findTitle = re.compile(r'<span class="title">(.*)</span>')
#影片评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#影片的评价人数
findJudge = re.compile(r'<span>(\d*)人评价</span>')
#找到概况
findIng = re.compile(r'<span class="inq">(.*)</span>')
#找到影片的相关的内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

#爬取网页
def getData(baseURL):
    datalist = []
    for i in range(0,10): #调用获取页面信息的函数，10次
        url = baseURL + str(i*25)
        html = askURL(url)  #保存获取到网页源码

        #2、逐一解析数据
        soup = bs4.BeautifulSoup(html, "html.parser")
        for item in soup.find_all('div',class_="item"): #查找符合要求的字符串，形成列表
            #print(item) #测试：查看电影item全部信息
            data = [] #保存一部电影的全部信息
            item = str(item)
            #影片详情的链接
            link = re.findall(findLink,item)[0]#re库用来通过正则表达式查找指定的字符串
            data.append(link) #添加链接

            imgSrc = re.findall(findImg,item)[0]
            data.append(imgSrc) #添加图片

            titles = re.findall(findTitle,item)[0] #片名可能只有一个中文名，没有外国名
            if (len(titles) == 2):
                ctitle = titles[0]
                data.append(ctitle)#添加中文名
                otitle = titles[1].replace("/","")
                data.append(otitle)#添加外国名
            else:
                data.append(titles[0])
                data.append(' ')#没有外国名的时候，这里的位置留空

            rating = re.findall(findRating,item)[0]
            data.append(rating)#添加评分

            judgeNum = re.findall(findJudge,item)[0]
            data.append(judgeNum) #添加评价人数

            inq = re.findall(findIng,item)
            if len(inq) != 0:
                inq = inq[0].replace("。","")#去掉句号
                data.append(inq)
            else:
                data.append(" ") #没有概括时留空

            bd = re.findall(findBd,item)[0]
            bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd) #去掉<br/>
            bd = re.sub('/'," ",bd)
            data.append(bd.strip()) #去掉前后的空格

            datalist.append(data) #吧处理好的一部电影信息放入datalist
    return datalist

3. 分析并保存数据
在这里将两种情况，一是保存到excel文件，二是保存到数据库
（1）保存到excel

import xlwt #进行Excel操作

#3、保存数据
def savaData(datalist,savapath):
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)  # 创建workbook对象
    sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)  # 创建工作表
    col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价人数","概括","相关信息")

    # 先把列名写上
    for i in range(0,8):
        sheet.write(0,i,col[i])#列名

    # 写数据
    for i in range(0,250):
        print("第%d条"%(i+1))
        data = datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j])#数据
            
    book.save(savapath)  # 保存数据表

（2）保存到数据库

import sqlite3 #进行SQLite3数据库操作

def saveDataDB(datalist,dbpath):
    init_db(dbpath)
    conn = sqlite3.connect(dbpath)
    cur = conn.cursor()

    for data in datalist:
        for index in range(len(data)):
            if index == 4 or index == 5: #这里是对影片信息的特殊处理
                continue
            data[index] = '"'+data[index]+'"'
        sql = '''
            insert into movie250(
               info_link,pic_link,cname,ename,score,rated,introduction,info)
                values(%s)'''%",".join(data)
        print(sql)
        cur.execute(sql)
        conn.commit()
    conn.close()

def init_db(dbpath):
    sql = '''
    create table movie250
    (
    id integer primary key autoincrement,
    info_link text,
    pic_link text,
    cname varchar,
    ename varchar,
    score numeric,
    rated numeric,
    introduction text,
    info text
    )    
'''
    conn = sqlite3.connect(dbpath)
    cursor = conn.cursor()
    cursor.execute(sql)
    conn.commit()

4. 主调函数

def main():
    baseURL = "https://movie.douban.com/top250?start="
    #1、爬取网页
    datalist = getData(baseURL)
    savapath = ".\\豆瓣电影Top250.xls" #自己起的文件名称。或 dbpath = "movie250.db"  自己起的数据库名称
    #3、保存数据
    savaData(datalist,savapath) #或saveDataDB(datalist, dbpath)

5. 运行

if __name__ == "__main__":
    main()
    print("函数执行完毕")

镹黎同学

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫小案例（爬取豆瓣电影top250的电影信息）

一、准备（流程）访问指定URL需要导包：import urllib.request,urllib.error爬取数据需要导包：import bs4分析并保存数据需要导包：import xlwt #存放到Excel，进行Excel操作。或import sqlite3 #存放到数据库，进行SQLite3数据库操作主调函数调用前面的函数运行调用主调函数二、分流程1、访问指定的url（1）导包import urllib.request,urllib.error
复制链接

扫一扫

专栏目录