Python-爬虫（豆瓣）

最新推荐文章于 2024-05-25 22:09:21 发布

`Nobody

最新推荐文章于 2024-05-25 22:09:21 发布

阅读量212

点赞数

本文链接：https://blog.csdn.net/qq_42021840/article/details/106576480

版权

豆瓣爬出Top250的数据，学习记录。

#-*- codeing = utf-8 -*-
#@Time : 2020/6/3 23:09
#@Author : Matthew
#@File : 爬虫.py
#@Software : PyCharm


from bs4 import BeautifulSoup  #网页解析，获取数据
import  re                     #正则表达式，匹配文字
import urllib.request,urllib.error  #指定URL，获取网页数据
import xlwt                         #进行excel操作
import sqlite3                      #进行SQLite数据库操作


def  main():
    baseurl ="https://movie.douban.com/top250?start="
    #1.爬取网页
    dataList = getData(baseurl)
    #2.解析数据
    #3.保存数据
    savePath = "豆瓣电影Top250.xls"
    saveData(savePath,dataList)

    askURL(baseurl)

#影片详情链接
findlink = re.compile(r'<a href="(.*?)">')  #生成正则表达式对象，表示规则
#影片图片链接
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)  #忽略换行符
#影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
#影片的评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#评价人数
findNumber = re.compile(r'<span>(\d*)人评价</span>')
#影片概况
findInq = re.compile(r'<span class="inq">(.*)</span>')
#影片相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)

# 1.爬取网页
def  getData(baseurl):
    dataList = []
    for i in range(0,10): #反复调用获取top250 10*25
        url = baseurl +str(i*25)
        html = askURL(url)      #获取网页数据
        #2.解析数据
        soup = BeautifulSoup(html,"html.parser") #解析html 用html解析器 soup是树形结构
        for item in soup.find_all('div',class_="item"):              #查找符合的数据，形成列表
            data = []#保存一部电影的信息
            item = str(item)
            #link 影片详情链接
            link = re.findall(findlink,item)[0]   #通过正则表达式查找指定的字符串
            data.append(link)                       #详情链接
            imgSrc = re.findall(findImgSrc,item)[0]
            data.append(imgSrc)                     #图片链接
            titles = re.findall(findTitle,item)
            if(len(titles)==2):
                chinesTitle = titles[0]             #中文名字
                data.append(chinesTitle)
                otherTitle = titles[1].replace("/","")  #去掉/
                data.append(otherTitle)             #外文名字
            else:
                data.append(titles[0])
                data.append(" ")                    #外文名字留空

            rating = re.findall(findRating,item)[0]
            data.append(rating)                     #评分


            number = re.findall(findNumber,item)[0]
            data.append(number)                    #人数

            inq = re.findall(findInq,item)
            if len(inq)!=0:
                inq = inq[0].replace("。","")
                data.append(inq)                       #概述
            else:
                data.append(" ")

            bd = re.findall(findBd,item)[0]
            bd = re.sub('<br(\s+)?/>(/s+)?'," ",bd)  #去掉<br/>
            bd = re.sub('/'," ",bd)
            bd = re.sub(r'\n'," ",bd)
            data.append(bd.strip())                #strip去掉空格
            dataList.append(data)                 #将一部电影内容放入datalist中


    return dataList


#3.保存数据
def saveData(savePath,dataList):
    print("save...")
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)
    sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)
    col = ("电影详情链接","图片链接","影片中文名","影片外文名","影片评分","观看人数","影片概述","相关信息")

    for i in range(0,8):
        sheet.write(0,i,col[i])  #写入列名
    for i in range(0,len(dataList)):
        for j in range(0,len(dataList[i])):
            sheet.write(i+1,j,dataList[i][j])

    book.save(savePath)        #保存数据
    print("Saving Over")
#得到指定一个url网页的内容

def askURL(url):
    #伪装一个浏览器 用户代理告诉服务器我们是什么类型的机器、浏览器 模拟一个头部
    head = {
        r"User-Agent":r"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36"
    }
    req= urllib.request.Request(url,headers=head)
    html =""
    try:
        response = urllib.request.urlopen(req)
        html = response.read().decode()
      #  print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html


if __name__ =="__main__"   : # main 函数入口


 main()

`Nobody

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python-爬虫（豆瓣）

豆瓣爬出Top250的数据，学习记录。#-*- codeing = utf-8 -*-#@Time : 2020/6/3 23:09#@Author : Matthew#@File : 爬虫.py#@Software : PyCharmfrom bs4 import BeautifulSoup #网页解析，获取数据import re #正则表达式，匹配文字import urllib.request,urllib.error #指定..
复制链接

扫一扫