爬取豆瓣TOP250练习
代码
# -*- coding = utf-8 -*-
# @Time : 2022/2/21 16:29
# @Author : G
# @File : spider.py
# @Software: PyCharm
from bs4 import BeautifulSoup #网页解析 获取数据
import re #正则表达式 进行文字匹配
import urllib.request,urllib.error #制定URL 获取网页数据
import xlwt #进行excel操作
import sqlite3 #进行SQlite数据库操作
#创建正则对象,表示规则
findlink=re.compile(r'<a href="(.*?)">') #电影链接
findimg=re.compile(r'<img .*src="(.*?)".*/>') #图片链接
findtitle=re.compile(r'<span class="title">(.*?)</span>') #电影名
findrating=re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>') #评分
findjudge=re.compile(r'<span>(.*人评价)</span>')#(r'<span>(\d*)人评价</span>') #评价人数
findinq=re.compile(r'<span class="inq">(.*?)</span>') #简介
findbd=re.compile(r'<p class="">(.*?)</p>',re.S) #re.S表示忽略转义字符换行 导演等信息
def main():
baseurl = "https://movie.douban.com/top250?start="
# 爬取网络数据
datalist = getData(baseurl)
# 储存数据到excel
savepath = "doubanTOP250_1.xls" # .表示当前文件的目录
saveData(savepath, datalist)
# 存储数据到数据库中
dbpath = "movietop.db"
saveDataDB(datalist, dbpath)
#爬取网页获取数据存储在datalist中
def getData (baseurl):
datalist = []
for i in range(0,10): #调用获取页面信息的函数10次获取所有信息
url=baseurl+str(i*25)
html=askurl(url)
# 逐一解析数据 一定要在for循环里解析,不然数据会被覆盖!!!!!!
soup=BeautifulSoup(html,"html.parser")
for item in soup.find_all('div',class_="item"):
# print(item) #用于验证
data=[] #保存一部电影的所有信息
item=str(item) #转化为字符串进行处理
link=re.findall(findlink,item)[0] #通过正则表达式找到匹配的字符串 以list存储
data.append(link) #逐一添加数据
imagescr=re.findall(findimg,item)[0]
data.append(imagescr)
Title=re.findall(findtitle,item)
if len(Title)!=1 :
data.append(Title[0]) #中文名和外文名
data.append(re.sub('/','',Title[1])) #替换掉/
else:
data.append(Title[0])
data.append('')
rating=re.findall(findrating,item)[0]
data.append(rating)
judge=re.findall(findjudge,item)[0]
data.append(judge)
inq=re.findall(findinq,item)
if len(inq)!=0:
inq=inq[0].replace('。','')
data.append(inq)
else:
data.append('')
bd=re.findall(findbd,item)[0]
bd =re.sub('<br/>(.*?)'," ",bd) #对字符串处理
bd =re.sub(r'\xa0'," ",bd)
data.append(bd.rstrip())
datalist.append(data) #将每一部电影的信息添加到datalist形成二维数组
# print(datalist)
print('get data successfully')
return datalist
#请求一个链接获取一个界面的html
def askurl (url):
head={"User-Agent":" Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:97.0) Gecko/20100101 Firefox/97.0"}
req=urllib.request.Request(url= url,headers= head) #伪装成浏览器发送的请求
html=""
try:
response=urllib.request.urlopen(req) #发送请求得到的反馈网页句柄
html = response.read().decode('utf-8') #读取网页的信息 字符串
# print(html) #验证是否爬取到
except Exception as e:
if hasattr(e,"code"): #用于判断对象是否包含某一属性
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html
#excel储存数据
def saveData (savepath,datalist):
book=xlwt.Workbook(encoding='utf-8',style_compression=0) #无压缩
sheet=book.add_sheet('豆瓣电影TOP250',cell_overwrite_ok=True) #内容可覆盖
col=["电影链接","图片","中文名","外文名","评分","评价人数","概述","导演信息和分类"]
for i in range(0,8): #在第一行填充类别
sheet.write(0,i,col[i])
for i in range(0,250):
item=datalist[i]
# print("%d"%(i+1))
for content in range(0,8):
sheet.write(i+1,content,item[content]) #对250个电影数据进行保存
book.save(savepath)
print("保存完毕")
#初始化数据库 不可重复创建同一数据库
def init_db (dbpath):
sql='''
create table movieTOP_250
(
id integer primary key autoincrement,
info_link text,
img_link text,
chinaName varchar,
foreignName varchar,
sorce numeric,
rated varchar,
introduction text,
info text
)
'''
conn=sqlite3.connect(dbpath)
c=conn.cursor()
c.execute(sql)
conn.commit()
conn.close()
print("成功创建数据库")
#保存数据到数据库
def saveDataDB (datalist,dbpath):
init_db(dbpath)
conn=sqlite3.connect(dbpath)
c=conn.cursor()
for data in datalist:
for index in range(len(data)):
data[index]='"'+data[index]+'"' # 给字符串加上双引号
sql='''
insert into movieTOP_250(
info_link,img_link,chinaName,foreignName,sorce,rated,introduction,info)
values(%s)'''%','.join(data) #join 以,为节点连接字符
c.execute(sql)
conn.commit()
conn.close()
print("insert successfully")
if __name__=="__main__": #运行main
main()
运行结果
- 数据表
- excel表
遇到的问题
-
社区版pycharm无数据库
在settings
中的plugins
下载Database Navigator
插件,重启pycharm
后顶端菜单栏会出现DB Navigator
-
出现database is locked的提示
在DB Navigator
中打开settings
,在界面的左边选择当前使用的数据库,在数据库的菜单栏选择Details
做如下修改并Apply
:
-
导入数据库时无法导入250个数据
同样在DB Navigator
中打开settings
,选择Data Editor
,做如下修改并Apply
: