python爬虫练习-CSDN博客

本文链接：https://blog.csdn.net/qq_45977843/article/details/123147903

爬取豆瓣TOP250练习

代码

# -*- coding = utf-8 -*-
# @Time : 2022/2/21 16:29
# @Author : G
# @File : spider.py
# @Software: PyCharm

from bs4 import BeautifulSoup       #网页解析 获取数据
import re                           #正则表达式  进行文字匹配
import urllib.request,urllib.error  #制定URL 获取网页数据
import xlwt        #进行excel操作
import sqlite3     #进行SQlite数据库操作


#创建正则对象，表示规则
findlink=re.compile(r'<a href="(.*?)">')                   #电影链接
findimg=re.compile(r'<img .*src="(.*?)".*/>')              #图片链接
findtitle=re.compile(r'<span class="title">(.*?)</span>')  #电影名
findrating=re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>')  #评分
findjudge=re.compile(r'<span>(.*人评价)</span>')#(r'<span>(\d*)人评价</span>')       #评价人数
findinq=re.compile(r'<span class="inq">(.*?)</span>')      #简介
findbd=re.compile(r'<p class="">(.*?)</p>',re.S)           #re.S表示忽略转义字符换行  导演等信息

def main():
    baseurl = "https://movie.douban.com/top250?start="
    # 爬取网络数据
    datalist = getData(baseurl)

    # 储存数据到excel
    savepath = "doubanTOP250_1.xls"  # .表示当前文件的目录
    saveData(savepath, datalist)

    # 存储数据到数据库中
    dbpath = "movietop.db"
    saveDataDB(datalist, dbpath)

#爬取网页获取数据存储在datalist中
def getData (baseurl):
    datalist = []
    for i in range(0,10):                      #调用获取页面信息的函数10次获取所有信息
        url=baseurl+str(i*25)
        html=askurl(url)
        # 逐一解析数据   一定要在for循环里解析，不然数据会被覆盖！！！！！！
        soup=BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):
            # print(item)   #用于验证
            data=[]                            #保存一部电影的所有信息
            item=str(item)                     #转化为字符串进行处理

            link=re.findall(findlink,item)[0]  #通过正则表达式找到匹配的字符串 以list存储
            data.append(link)                  #逐一添加数据

            imagescr=re.findall(findimg,item)[0]
            data.append(imagescr)

            Title=re.findall(findtitle,item)
            if len(Title)!=1 :
                data.append(Title[0])                   #中文名和外文名
                data.append(re.sub('/','',Title[1]))    #替换掉/
            else:
                data.append(Title[0])
                data.append('')

            rating=re.findall(findrating,item)[0]
            data.append(rating)

            judge=re.findall(findjudge,item)[0]
            data.append(judge)

            inq=re.findall(findinq,item)
            if len(inq)!=0:
                inq=inq[0].replace('。','')
                data.append(inq)
            else:
                data.append('')

            bd=re.findall(findbd,item)[0]
            bd =re.sub('<br/>(.*?)'," ",bd)      #对字符串处理
            bd =re.sub(r'\xa0'," ",bd)
            data.append(bd.rstrip())
            datalist.append(data)               #将每一部电影的信息添加到datalist形成二维数组
#          print(datalist）
    print('get data successfully')
    return datalist

#请求一个链接获取一个界面的html
def askurl (url):
    head={"User-Agent":"	Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:97.0) Gecko/20100101 Firefox/97.0"}
    req=urllib.request.Request(url= url,headers= head)   #伪装成浏览器发送的请求
    html=""
    try:
        response=urllib.request.urlopen(req)     #发送请求得到的反馈网页句柄
        html = response.read().decode('utf-8')   #读取网页的信息  字符串
        # print(html)        #验证是否爬取到
    except Exception as e:
        if hasattr(e,"code"): #用于判断对象是否包含某一属性
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html

#excel储存数据
def saveData (savepath,datalist):
    book=xlwt.Workbook(encoding='utf-8',style_compression=0)       #无压缩
    sheet=book.add_sheet('豆瓣电影TOP250',cell_overwrite_ok=True)   #内容可覆盖
    col=["电影链接","图片","中文名","外文名","评分","评价人数","概述","导演信息和分类"]
    for i in range(0,8):              #在第一行填充类别
        sheet.write(0,i,col[i])
    for i in range(0,250):
        item=datalist[i]
        # print("%d"%(i+1))
        for content in range(0,8):
            sheet.write(i+1,content,item[content])   #对250个电影数据进行保存
    book.save(savepath)
    print("保存完毕")

#初始化数据库  不可重复创建同一数据库
def init_db (dbpath):
    sql='''
    create table movieTOP_250
    (
      id integer primary key autoincrement,
      info_link text,
      img_link text,
      chinaName varchar,
      foreignName varchar,
      sorce numeric,
      rated varchar,
      introduction text,
      info text  
    )   
    '''
    conn=sqlite3.connect(dbpath)
    c=conn.cursor()
    c.execute(sql)
    conn.commit()
    conn.close()
    print("成功创建数据库")

#保存数据到数据库
def saveDataDB (datalist,dbpath):
    init_db(dbpath)
    conn=sqlite3.connect(dbpath)
    c=conn.cursor()

    for data in datalist:
        for index in range(len(data)):
            data[index]='"'+data[index]+'"'    # 给字符串加上双引号
        sql='''
            insert into movieTOP_250(
            info_link,img_link,chinaName,foreignName,sorce,rated,introduction,info)
            values(%s)'''%','.join(data)      #join 以,为节点连接字符

        c.execute(sql)
        conn.commit()
    conn.close()
    print("insert successfully")


if __name__=="__main__":    #运行main
    main()

运行结果

数据表

excel表

在这里插入图片描述

遇到的问题

社区版pycharm无数据库
在settings中的plugins下载Database Navigator插件，重启pycharm后顶端菜单栏会出现DB Navigator
出现database is locked的提示
在DB Navigator中打开settings，在界面的左边选择当前使用的数据库，在数据库的菜单栏选择Details
做如下修改并Apply：
导入数据库时无法导入250个数据
同样在DB Navigator中打开settings，选择Data Editor，做如下修改并Apply：