一、实验目的及要求
1、目的
熟悉request、beautifulsoup等库的使用。
2、内容及要求
掌握request、beautifulsoup等爬虫库的基本使用,能够完成简单的页面数据爬取。
任务
(1)爬取豆瓣网上某电影介绍中的演员姓名信息,将姓名信息打印或者保存为文件。
(2) 爬取豆瓣网上某电影的影评数据,将这些影评数据保存为文件,并把此文件用词云展示出来。
(3) “https://mall.autohome.com.cn/”页面右上方搜索栏里输入“SUV”,爬取搜索结果第1页的车辆名称,将结果打印或者保存为文件。
- 实验方法与步骤
直接上代码
>>>>>>>>>爬取豆瓣网上某电影介绍中的演员姓名信息,将姓名信息打印或者保存为文件。
import requests
from lxml import etree
from urllib.request import urlretrieve
import json
url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action="
params = {
"start":int(input('请输入电影开始数: ')),#控制电影开始数
"limit":int(input('请输入返回电影数: '))#控制返回多少部电影
}
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36"
}
response = requests.get(url,headers=headers,params=params)
item = {} #用于存放json数据
f = open("movie.json", "a", encoding="utf-8")
res = response.json()
for i in res:
title = i['title']
actors = i['actors']
item["电影名称"] = title
item["演员列表"] = actors
#print(title,actors)
f.write(json.dumps(item,ensure_ascii=False,indent=4)+",\n")
f.close()
1
>>>>>>>>>爬取豆瓣网上某电影的影评数据,将这些影评数据保存为文件,并把此文件用词云展示出来。以爬取神偷奶爸-----小黄人电影的影评为例子
先爬取相关影片的短评
#request
#bs4
import csv
import requests#获取response对象
from bs4 import BeautifulSoup#获取解析对象
#接收url,解析url
def getCommentByPage(url):
#1.添加请求头(程序模拟用户浏览器,向服务器发送请求)
headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36"}
#2.请求url;获得response对象
response=requests.get(url,headers=headers)
#3.判断是否获取到
if response.status_code==200:
#创建bs4解析对象
soup=BeautifulSoup(response.content.decode("utf-8"),"lxml")
#5.获取存放所有评价的标签对象
#print(soup)
comments=soup.find_all("div",attrs={"class":"comment-item"})
#print(comments)
for c in comments:
#目标:用户 时间 评分
cominfo = c.find("span",attrs={"class":"comment-info"})
#爬取评价人网名
name = cominfo.find("a").text
if(len(cominfo.select("span"))==3):
# 是否看过
look =cominfo.select("span")[0].text
#评分
start =cominfo.select("span")[1].get("title")
#时间
time =cominfo.select("span")[2].get("title")
else:
# 是否看过
look = cominfo.select("span")[0].text
# 评分
start="null"
# 时间
time = cominfo.select("span")[1].get("title")
#对应评价
short =c.find("span",attrs={"class","short"}).text
print("{},{},{},{}".format(look, start, time,short))
comlist.append([look,start,time,short])
else:
print("请求失败!")
def writeComment(comlist):
with open(r"D:\Python Workspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\Move.csv","w",newline="",encoding="utf-8-sig") as file:
csvWrite =csv.writer(file)
csvWrite.writerows(comlist)
if __name__ == '__main__':
print("get")
#定义全局变量
comlist=[]
for i in range(0,10):
baseurl = "https://movie.douban.com/subject/30170847/comments?status=P".format(i*20)
getCommentByPage(baseurl)
for item in comlist:
print(item)
writeComment(comlist)
根据爬取的相关数据,我们可以制作词云图,代码如下:
import csv
import jieba
import numpy as np
from wordcloud import WordCloud
from PIL import Image
def redData():
# 打开CSV文件,读取其中的数据
with open(r"D:\Python Workspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\Move.csv", "r", encoding="utf-8-sig") as file:
# 获取csv的读取对象
csvReader = csv.reader(file)
# 返回每行数据的最后一个元素(评价内容)组成的列表
return [item[-1] for item in csvReader]
def genWordCloud():
# 获取所有评价数据
commenList = redData()
# 将所有评价拼接成一个字符串
finalComments = ""
for c in commenList:
# 去除一些无关词汇
c = c.replace("的", "").replace("了", "").replace("我", "")\
.replace("是", "").replace("和", "").replace("就", "")
finalComments += c
# 使用jieba库对评论进行分词处理
finalComments = " ".join(jieba.cut(finalComments))
# 使用PIL库将图片读取为numpy数组格式
image = np.array(Image.open(r"D:\Python Workspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\background.jpg"))
# 实例化一个词云对象,设置字体、背景颜色和轮廓图片
wordCloud = WordCloud(
font_path="msyhbd.ttc",
width=1700,
height=1206,
background_color="white",
mask=image
).generate(finalComments)
# 将生成的词云图保存为文件
wordCloud.to_file(r"D:\Python Workspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\Yutu.jpg")
if __name__ == '__main__':
redData()
genWordCloud()
在其中with open(r"D:\PythonWorkspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\Move.csv",是你爬取数据的存放位置
使用PIL库将图片读取为numpy数组格式
image = np.array(Image.open(r"D:\Python Workspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\background.jpg")),该路径是你词云图的背景图片
将生成的词云图保存为文件
wordCloud.to_file(r"D:\Python Workspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\Yutu.jpg"),是你生成词云图的位置目录
例如:使用这例图作为词云图的背景图片
可以得到如下的结果:
由此,可以换成你自己喜欢的或感兴趣的图片
>>>>>>>>>在“https://mall.autohome.com.cn/”页面右上方搜索栏里输入“SUV”,爬取搜索结果第1页的车辆名称,将结果打印或者保存为文件。
查看其网页,我们可以看到
import requests
from bs4 import BeautifulSoup
def fetch_car_names(keyword,page):
url = f'https://mall.autohome.com.cn/list/0-999999-0-0-0-0-0-0-0-1.html?isSearch=1&providerId=&prefix={keyword}'
header = {
'User-Agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebkit/537.36(KHTML,like Gecke) Chrome/91.0.4472.124 Safafi/537.36'
}
try:
response = requests.get(url,headers=header)
response.raise_for_status()
soup = BeautifulSoup(response.text,'html.parser')
car_divs = soup.find_all('div',class_='carbox-title single-line')
car_names = [div.get_text(strip=True) for div in car_divs]
return car_names
except requests.exceptions.RequestException as e:
print(f"请求异常:{e}")
return []
def main():
keyword = 'SUV'
page = 1
car_names = fetch_car_names(keyword,page)
if car_names:
print("搜索的车辆型号有如下")
for name in car_names:
print(name)
with open('car_names.txt','w',encoding='utf-8') as f:
for name in car_names:
f.write(name + '\n')
else:
print("未能获取到车辆型号")
if __name__ == "__main__":
main()
相关结果如下: