掌握request、beautifulsoup等爬虫库的基本使用，能够完成简单的页面数据爬取。

最新推荐文章于 2024-10-08 20:27:53 发布

Momentarily

最新推荐文章于 2024-10-08 20:27:53 发布

阅读量506

点赞数 11

文章标签： python 爬虫开发语言 beautifulsoup

本文链接：https://blog.csdn.net/m0_62123085/article/details/140278805

版权

一、实验目的及要求

1、目的

熟悉request、beautifulsoup等库的使用。

2、内容及要求

掌握request、beautifulsoup等爬虫库的基本使用，能够完成简单的页面数据爬取。

任务

(1)爬取豆瓣网上某电影介绍中的演员姓名信息，将姓名信息打印或者保存为文件。

(2) 爬取豆瓣网上某电影的影评数据，将这些影评数据保存为文件，并把此文件用词云展示出来。

(3) “https://mall.autohome.com.cn/”页面右上方搜索栏里输入“SUV”，爬取搜索结果第1页的车辆名称，将结果打印或者保存为文件。

实验方法与步骤

直接上代码

>>>>>>>>>爬取豆瓣网上某电影介绍中的演员姓名信息，将姓名信息打印或者保存为文件。

import requests
from lxml import etree
from urllib.request import urlretrieve
import json

url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action="

params = {
	"start":int(input('请输入电影开始数: ')),#控制电影开始数
	"limit":int(input('请输入返回电影数: '))#控制返回多少部电影
}
headers = {
	"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36"
}

response = requests.get(url,headers=headers,params=params)

item = {} #用于存放json数据
f = open("movie.json", "a", encoding="utf-8")
res = response.json()
for i in res:
	title = i['title']
	actors = i['actors']
	item["电影名称"] = title
	item["演员列表"] = actors
	#print(title,actors)
	f.write(json.dumps(item,ensure_ascii=False,indent=4)+",\n")
f.close()
1

>>>>>>>>>爬取豆瓣网上某电影的影评数据，将这些影评数据保存为文件，并把此文件用词云展示出来。以爬取神偷奶爸-----小黄人电影的影评为例子

先爬取相关影片的短评

#request
#bs4
import csv
import requests#获取response对象
from bs4 import BeautifulSoup#获取解析对象
#接收url，解析url
def getCommentByPage(url):
    #1.添加请求头（程序模拟用户浏览器，向服务器发送请求）
    headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36"}
    #2.请求url；获得response对象
    response=requests.get(url,headers=headers)
    #3.判断是否获取到
    if response.status_code==200:
        #创建bs4解析对象
        soup=BeautifulSoup(response.content.decode("utf-8"),"lxml")
        #5.获取存放所有评价的标签对象
        #print(soup)
        comments=soup.find_all("div",attrs={"class":"comment-item"})
        #print(comments)
        for c in comments:
            #目标：用户 时间 评分
            cominfo = c.find("span",attrs={"class":"comment-info"})
            #爬取评价人网名
            name = cominfo.find("a").text
 
            if(len(cominfo.select("span"))==3):
                # 是否看过
                look =cominfo.select("span")[0].text
                #评分
                start =cominfo.select("span")[1].get("title")
                #时间
                time =cominfo.select("span")[2].get("title")
            else:
                # 是否看过
                look = cominfo.select("span")[0].text
                # 评分
                start="null"
                # 时间
                time = cominfo.select("span")[1].get("title")
            #对应评价
            short =c.find("span",attrs={"class","short"}).text
            print("{},{},{},{}".format(look, start, time,short))
            comlist.append([look,start,time,short])
 
 
 
    else:
        print("请求失败！")
 
 
def writeComment(comlist):
    with open(r"D:\Python Workspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\Move.csv","w",newline="",encoding="utf-8-sig") as file:
        csvWrite =csv.writer(file)
        csvWrite.writerows(comlist)
if __name__ == '__main__':
    print("get")
    #定义全局变量
    comlist=[]
    for i in range(0,10):
        baseurl = "https://movie.douban.com/subject/30170847/comments?status=P".format(i*20)
        getCommentByPage(baseurl)
    for item in comlist:
        print(item)
    writeComment(comlist)

根据爬取的相关数据,我们可以制作词云图,代码如下:

import csv
import jieba
import numpy as np
from wordcloud import WordCloud
from PIL import Image

def redData():
    # 打开CSV文件，读取其中的数据
    with open(r"D:\Python Workspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\Move.csv", "r", encoding="utf-8-sig") as file:
        # 获取csv的读取对象
        csvReader = csv.reader(file)
        # 返回每行数据的最后一个元素（评价内容）组成的列表
        return [item[-1] for item in csvReader]

def genWordCloud():
    # 获取所有评价数据
    commenList = redData()
    # 将所有评价拼接成一个字符串
    finalComments = ""
    for c in commenList:
        # 去除一些无关词汇
        c = c.replace("的", "").replace("了", "").replace("我", "")\
            .replace("是", "").replace("和", "").replace("就", "")
        finalComments += c
    # 使用jieba库对评论进行分词处理
    finalComments = " ".join(jieba.cut(finalComments))
    # 使用PIL库将图片读取为numpy数组格式
    image = np.array(Image.open(r"D:\Python Workspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\background.jpg"))
    # 实例化一个词云对象，设置字体、背景颜色和轮廓图片
    wordCloud = WordCloud(
        font_path="msyhbd.ttc",
        width=1700,
        height=1206,
        background_color="white",
        mask=image
    ).generate(finalComments)
    # 将生成的词云图保存为文件
    wordCloud.to_file(r"D:\Python Workspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\Yutu.jpg")

if __name__ == '__main__':
    redData()
    genWordCloud()

在其中with open(r"D:\PythonWorkspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\Move.csv",是你爬取数据的存放位置

使用PIL库将图片读取为numpy数组格式
image = np.array(Image.open(r"D:\Python Workspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\background.jpg")),该路径是你词云图的背景图片

将生成的词云图保存为文件
wordCloud.to_file(r"D:\Python Workspace\Test01\HTTP\NewSmallexpression\NewSmallexpression\Expression2\Yutu.jpg"),是你生成词云图的位置目录

例如:使用这例图作为词云图的背景图片

可以得到如下的结果:

由此,可以换成你自己喜欢的或感兴趣的图片

>>>>>>>>>在“https://mall.autohome.com.cn/”页面右上方搜索栏里输入“SUV”，爬取搜索结果第1页的车辆名称，将结果打印或者保存为文件。

查看其网页,我们可以看到

import requests
from bs4 import BeautifulSoup

def fetch_car_names(keyword,page):
    url = f'https://mall.autohome.com.cn/list/0-999999-0-0-0-0-0-0-0-1.html?isSearch=1&providerId=&prefix={keyword}'
    header = {
      'User-Agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebkit/537.36(KHTML,like Gecke) Chrome/91.0.4472.124 Safafi/537.36'
    }

    try:
        response = requests.get(url,headers=header)
        response.raise_for_status()

        soup = BeautifulSoup(response.text,'html.parser')
        car_divs = soup.find_all('div',class_='carbox-title single-line')
        car_names = [div.get_text(strip=True) for div in car_divs]
        return car_names
    except requests.exceptions.RequestException as e:
        print(f"请求异常:{e}")
        return []

def main():
    keyword = 'SUV'
    page = 1
    car_names = fetch_car_names(keyword,page)

    if car_names:
        print("搜索的车辆型号有如下")
        for name in car_names:
            print(name)
        with open('car_names.txt','w',encoding='utf-8') as f:
            for name in car_names:
                f.write(name + '\n')

    else:
        print("未能获取到车辆型号")
if __name__ == "__main__":
    main()