python爬虫_1

该博客主要介绍了如何使用Python进行网络爬虫,抓取豆瓣电影Top250的电影信息,包括电影链接、图片、片名、评分、评价人数等,并对数据进行解析和存储。通过正则表达式提取关键信息,使用BeautifulSoup进行网页解析,最后将数据保存到Excel和SQLite数据库。
摘要由CSDN通过智能技术生成
#-*- codeing=utf-8 -*-

from bs4 import BeautifulSoup  #网页解析,获取数据
import re    #正则表达式,进行文字匹配
import urllib.request,urllib.error    #制定URL,获取网页数据
import xlwt     #进行excel操作的
import sqlite3  #进行sqlite数据库操作

def main():
    #1.爬取网页
    #2.解析数据
    #3.保存数据
    baseurl ="https://movie.douban.com/top250?start="
    data = getData(baseurl)

    savePath = '.\\豆瓣电影Top250.xls'
    saveData(savePath)
#影片链接的规则
findLink = re.compile(r'<a href="(.*?)">')    #创建正则表达式对象,表示规则(字符串的模式)
#影片图片
ImagLink = re.compile(r'<img .* src="(.*?)"(.*?)/>',re.S)        #让换行符包含在字符中
#影片片名
findTitle = re.compile(r'<span class="title">(.*?)</span>',re.S)
#影片评分
findPingfen = re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>')
#评分人数
findNumber = re.compile(r'<span>(\d*?)人评价</span>')
#找到概况
findSummary = re.compile(r'<span class="inq">(.*?)</span>')
#找到影片的相关内容
findInfo = re.compile(r'<p class="">(.*?)</p>',re.S)
# 爬取网页
def getData(baseurl):
    datalist = []
    # 逐一解析数据
    for i in range(0,1):      #调用获取页面信息的函数 10次
        url = baseurl+str(i*25)
        html = askURL(url)      #保存获取到的网页的源码
        #注意解析数据
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):    #查找符合要求的字符串,形成列表
            #print(item)     #测试:查看item全部信息
            item = str(item)

            data1 = []    #保存一部电影的所有信息
            #获取影片的超链接
            link = re.findall(findLink,item)[0]
            data1.append(link)
            img = re.findall(ImagLink,item)[0]
            data1.append(img)
            title = re.findall(findTitle,item)
            if(len(title)==2):
                ctitle = title[0]                   #添加中文名
                data1.append(ctitle)
                otitle = title[1].replace("/","")   #去掉无关的符号
                data1.append(otitle)                 #添加外国名
            else:
                data1.append(title[0])
                data1.append("")               #留空

            info =re.findall(findInfo,item)[0]
            info = re.sub(r'<br(\s+)?/>(\s+)?',' ',info)
            data1.append(info.strip())
            summary = re.findall(findSummary,item)
            if len(summary) != 0:
                sum1 = summary[0].replace("。","")
                data1.append(sum1)
            else:
                data1.append(" ")
            pf = re.findall(findPingfen,item)[0]
            data1.append(pf)
            num = re.findall(findNumber,item)[0]
            data1.append(num)
            datalist.append(data1)
    print(datalist)
    return datalist


#得到一个指定URL的网页的内容
def askURL(url):
    head = {
        #模拟浏览器头部信息,向豆瓣服务器发送消息
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;WOW64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 94.0.4606.81Safari / 537.36"
    }
    # 用户代理目的是告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上是告诉浏览器,我们可以接收什么水平的文件内容)
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        responce = urllib.request.urlopen(request)   #用于打开一个远程的url连接,并且向这个连接发出请求,获取响应结果
        html = responce.read().decode('utf-8')
        #print(html)
    except urllib.request.URLError as e:
        if hasattr(e,"code"):
           # print(e.code)
            pass
        if hasattr(e,"reason"):
            pass
            #print(e.reason)
    return html


# 保存数据
def saveData(savePath):
    pass

if __name__ == '__main__':
    main()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>