作业作业作业

最新推荐文章于 2024-10-05 18:02:32 发布

一何愚

最新推荐文章于 2024-10-05 18:02:32 发布

阅读量56

点赞数

文章标签： python

本文链接：https://blog.csdn.net/2302_76723495/article/details/132075656

版权

写一个网络爬虫程序,爬取目标网站数据，关键项不能少于5项

在上述条件下实现存储数据到数据库，可以进行增删改查操作import requests

import re

import xlwt

from bs4 import BeautifulSoup

url="https://www.dygod.net/html/gndy/dyzz/"

# url1="https://www.dygod.net/html/gndy/dyzz/index_2.html"

hd = {

# 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'

'User-Agent': 'Mozilla/4.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'

}

def getmanget(linkurl):

res=requests.get(linkurl,headers=hd)

res.encoding=res.apparent_encoding

soup=BeautifulSoup(res.text,"html.parser")

ret=soup.find_all("a")

for n in ret:

if "magnet" in str(n.string):

# print(n.string)

return n.string

return None

def insertDB():

pass

def saveExcel(worksheet,count,lst):

for i in range(6):

worksheet.write(count,i,lst[i])

# 正式代码开始

count=0#记录爬取电影的数量

total=[]#用来储存记录信息的列表

workbook=xlwt.Workbook(encoding="utf-8")#创建wookbook对象

worksheet=workbook.add_sheet('sheet1')#创建工作表

for i in range(2,3):

url="https://www.dygod.net/html/gndy/dyzz/index_"+str(i)+".html"

# print(url)

res=requests.get(url,headers=hd)

res.encoding=res.apparent_encoding

# print(res.text)

soup=BeautifulSoup(res.text,"html.parser")

print(soup.title,type(soup.title))

ret=soup.find_all(class_="tbspan",style="margin-top:6px")

for x in ret:

info=[]

# print(x.find("a").string)

info.append(x.find("a").string)

pat=re.compile(r"◎译　　名(.*)\n")

ret=re.findall(pat,str(x))

for n in ret:

n=n.replace(u'\u3000',u'')

print("◎译　　名:",n)

info.append(str(n))

pat = re.compile(r"◎年　　代(.*)\n")

ret = re.findall(pat, str(x))

for n in ret:

n = n.replace(u'\u3000', u'')

print("◎年　　代:", n)

info.append(str(n))

pat = re.compile(r"◎产　　地(.*)\n")

ret = re.findall(pat, str(x))

for n in ret:

n = n.replace(u'\u3000', u'')

print("◎产　　地:", n)

info.append(str(n).split("/")[0])

pat = re.compile(r"◎类　　别(.*)\n")

ret = re.findall(pat, str(x))

for n in ret:

n = n.replace(u'\u3000', u'')

print("◎类　　别:", n)

info.append(str(n).split("/")[0])

linkurl="https://www.dygod.net/" + x.find("a").get("href")

manget=getmanget(linkurl)

if manget:

print("下载地址：",manget)

info.append(str(manget))

# print(count,info)

saveExcel(worksheet,count,info)

count += 1

print("="*100)

workbook.save("movie.xls")

print(count)

运行结果为

最后实现扩展：将库中数据进行可视化展示。

代码如下：

import matplotlib.pyplot as plt

import numpy as np

#线图

# figure

figure=plt.figure()

subplot=figure.add_subplot(2,2,1)

subplot.plot(np.arange(0,100),np.arange(1,101))

# 柱状图

subplot2=figure.add_subplot(2,2,2)#画布2*2中第二个右上角的位置

data=np.array(((1,'变形金刚','动作片','美国','中英双字','2023',9.0),

(2,'28周后','科幻片','英国','蓝光中英双字','2007',9.0),

(3,'红尘1945','电影','中国大陆','中英双字','2023',7.0),

(4,'鼠来宝4','喜剧片','美国','蓝光中英双字','2015',7.0),

(5,'小行星都市','喜剧片','美国','中英双字','2023',9.0),

(6,'漫游在蓝色草原','剧情片','中国大陆','国语中字','2022',4.0),

(7,'花鼠明星俱乐部3','喜剧片','美国','蓝光中英双字','2011',6.0),

(8,'猎首密令','动作片','韩国','中英双字','2022',8.0),

(9,'鼠来宝2','喜剧片','美国','韩语中字','2009',9.0),

(10,'犯罪都市2','动作片','韩国','韩语中字','2023',9.0),

(11,'花鼠明星俱乐部','喜剧片','美国','中英双字','2007',7.0),

(12,'魔幻王国：黎明行者号','奇幻片','美国','中英双字','2010',8.0),

(13,'魔幻王国：卡斯柏王子','奇幻片','美国','中英双字','2008',9.0),

(14,'铃芽的门锁','电影','日本','日语中字','2022',9.0),

(15,'魔幻王国：狮子','奇幻片','英国','中英双字','2005',6.0),

(16,'星际异攻队2','动作片','美国','蓝光中英双字','2017',4.0),

(17,'银河守护队(港)','科幻片','美国','中英双字','2014',5.0),

(18,'小屁孩日记','喜剧片','美国','中英双字','2017',6.0),

(19,'逊咖冒险王3','喜剧片','美国','中英双字','2012',9.0),

(20,'小孱头日记2','电影','美国','中英双字','2011',9.0),

(21,'逊咖冒险王','喜剧片','中国大陆','中英双字','2010',9.0),

(22,'秘密交通站','动作片','美国','中英双字','2023',7.0),

(23,'年少有为','动作片','中国大陆','中英双字','2010',8.0),

(24,'圣斗士星矢','科幻片','美国','中英双字','2023',9.0)))

data1=data.T

print(data1)

xlabel=data[2]

print(data)

#统计剧情片

new1=(data=="剧情片")

juqingpian=np.sum(new1)

#统计科幻片

new2=(data=="科幻片")

kehuanpian=np.sum(new2)

#统计奇幻片

new3=(data=="奇幻片")

qihuanpian=np.sum(new3)

#统计动作片

new4=(data=="动作片")

dongzuopian=np.sum(new4)

#统计喜剧片

new5=(data=="喜剧片")

xijupian=np.sum(new5)

#统计'电影'

new6=(data=="电影")

dianying=np.sum(new6)

xlist=["剧情片","科幻片","喜剧片","电影","奇幻片","动作片"]

ylist=[juqingpian,kehuanpian,xijupian,dianying,qihuanpian,dongzuopian]

x=[i for i in np.array(xlist)]

y=[i for i in np.array(ylist)]

# y=data1[0]

print(x)

print(y)

bars=subplot2.bar(x,y,width=0.3)

# subplot2=figure.add_subplot(2,2,2).subplot()

subplot2.set_ylabel('total-number')

subplot2.set_ylabel('type',bbox=dict(facecolor='y',edgecolor='green',alpha=0.65))

subplot2.set_xticks(x)

subplot2.set_xticklabels(x)

# subplot2.title('Type-Film')

subplot2.grid(linestyle='--')

# 设置颜色

i=0

for bar in bars:

bar.set_color('#'+str(205001+i))

i+=119500

for x,y in zip(x,y):

subplot2.text(x,y,'%s'% np.float64(y),ha="center",va="bottom")

# 3.饼图

# 用来正常显示中文

plt.rcParams['font.sans-serif']=['SimHei']

# 用来正常显示符号

plt.rcParams['axes.unicode_minus']=False

subplot3=figure.add_subplot(2,2,3)

x=[i for i in np.array(xlist)]

y=[i for i in np.array(ylist)]

data=[temp for temp in (np.array(y)/np.sum(np.array(y)))]

print(data,'666')

labels=['%.2f %%' % (x*100) for x in data]

subplot3.pie(data,colors=['#50F4FF','#14FF4C',

'#FF120C','#DC460C',

'#2365E1','#FFFF5A'],labels=labels)

plt.title('占比类型',bbox=dict(facecolor='y',edgecolor='green',alpha=0.65))

#点图

subplot4=figure.add_subplot(2,2,4)

x=np.random.randint(1,100,100)

y=np.random.randint(1,100,100)

subplot4.scatter(x,y,s=30,c=x,alpha=0.8,marker='.')

plt.show()

运行结果如下

一何愚

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫