【网络爬虫】(3) 案例小结,文本内容爬取,附Python代码

本节总结一下各种文本内容爬取的方法,进行一下案例实战,附详细解析,包含:微博评论爬取;豆瓣电影信息爬取;飞卢网小说爬取;知乎问答爬取。


1. 微博评论爬取

import re  # 导入正则表达式模块,用于提取文本中的中文字符  
import requests  # 导入requests模块,用于发起网络请求  
import pandas as pd  # 导入pandas模块,用于数据处理和保存到Excel文件  
  
# 设置要爬取的微博评论页面的URL  
url = 'https://m.weibo.cn/comments/hotflow?id=4784937075214225&mid=4784937075214225&max_id_type=0'  
  
# 设置请求头,伪装成浏览器进行访问,避免被服务器识别为爬虫  
headers = {  
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'  
}  
  
# 发起GET请求,获取微博评论页面的数据  
response = requests.get(url=url, headers=headers)  
  
# 初始化一个空列表,用于存储爬取到的评论信息  
lis = []  
  
# 遍历响应数据中的评论列表  
for index in response.json()['data']['data']:  
    # 使用正则表达式提取评论中的中文字符,并拼接成字符串  
    content = ''.join(re.findall('[\u4e00-\u9fa5]+', index['text']))  
      
    # 构造一个字典,存储爬取到的评论信息  
    dit = {  
        '用户': index['user']['screen_name'],  # 用户名  
        '地区': index['source'].replace('来自', ''),  # 地区,这里简单地将来源文本中的“来自”替换为空字符串  
        '评论': content,  # 评论内容  
        '日期': index['created_at']  # 评论日期  
    }  
      
    # 将构造好的字典添加到列表中  
    lis.append(dit)  
      
    # 打印爬取到的评论信息(注:这行代码可以注释掉,仅用于调试)  
    print(dit)  
  
# 将列表转换为pandas DataFrame,方便后续处理  
pd_data = pd.DataFrame(lis)  
  
# 将DataFrame保存到Excel文件中  
pd_data.to_excel('微博评论.xlsx')

结果展示,评论信息保存在excel中


2. 豆瓣TOP250电影信息爬取

import requests  # 导入requests库,用于发送网络请求  
import parsel  # 导入parsel库,用于解析HTML或XML数据  
import csv  # 导入csv库,用于写入CSV文件  
import time # 导入time库,用于控制程序运行时间或休眠  
# 以追加模式打开文件,用于写入豆瓣电影Top250的信息  
f = open('豆瓣Top250.csv', mode='a', encoding='utf-8', newline='')  
# 定义csv文件的列名  
csv_writer = csv.DictWriter(f, fieldnames=[  
    '标题',       # 电影标题  
    '导演',       # 导演  
    '演员',       # 演员  
    '电影年份',   # 电影年份  
    '拍摄国家',   # 拍摄国家  
    '电影类型',   # 电影类型  
    '电影评分',   # 电影评分  
    '评论人数',   # 评论人数  
    '电影简介',   # 电影简介  
])  
# 写入CSV文件的列名(即表头)  
csv_writer.writeheader()  
# 初始化一个变量num,用于控制爬取的页码  
num = 1

for page in range(0, 250, 25):
    print(f'正在爬取第{num}页数据内容')
    num += 1  # 更新页码
    time.sleep(1)  # 暂停1s,防止更新过于频繁
    # 1. 发送请求, 确定url地址 然后对其发送请求
    url = f'https://movie.douban.com/top250?start={page}&filter='
    # User-Agent 浏览器的基本标识 基本信息 headers请求头 主要是把python代码进行伪装
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)  # 发送GET请求,获取响应内容
    selector = parsel.Selector(response.text)  # 使用parsel库解析HTML内容
    # css选择器 主要根据标签属性内容提取数据
    lis = selector.css('.grid_view li')  # 获取所有li标签 返回的数据 列表, 列表里面没一个元素都是selector对象
    for li in lis:
        title = li.css('.info .hd span.title:nth-child(1)::text').get()  # 电影的名字
        movie_info_list = li.css('.bd p:nth-child(1)::text').getall()  # 电影的信息
        # getall 返回的是列表 strip() 去除字符串左右两端空格
        actor_list = movie_info_list[0].strip().split('   ')
        if len(actor_list) > 1:
            actor_1 = actor_list[0].replace('导演: ', '')  # 导演
            actor_2 = actor_list[1].replace('主演: ', '').replace('/...', '')  # 主演
            movie_info = movie_info_list[1].strip().split(' / ')
            movie_year = movie_info[0]  # 电影的年份
            movie_country = movie_info[1]  # 电影的国家
            movie_type = movie_info[2]  # 电影的类型
            movie_sum = li.css('.inq::text').get()  # 电影简介
            movie_num = li.css('.rating_num::text').get()  # 电影评分
            comment = li.css('.star span:nth-child(4)::text').get().replace('人评价', '')  # 评论人数
        else:
            actor_1 = actor_list[0]
            actor_2 = 'None'
        dit = {  # 将提取到的信息构造成一个字典
            '标题': title,
            '导演': actor_1,
            '演员': actor_2,
            '电影年份': movie_year,
            '拍摄国家': movie_country,
            '电影类型': movie_type,
            '电影评分': movie_num,
            '评论人数': comment,
            '电影简介': movie_sum,
        }
        csv_writer.writerow(dit)  # 将提取到的电影信息写入CSV文件
        print(title, actor_1, actor_2, movie_year, movie_country, movie_type, movie_sum, movie_num, comment, sep='|')

结果展示,电影信息以CSV文件保存


3. 飞卢网小说爬取

"""
多页 多个数据采集, 我们要去分析, 请求url地址变化规律
"""
import requests  # 导入requests库,用于发起网络请求  
import parsel  # 导入parsel库,用于解析HTML内容  
# 遍历页码,从1到43
for page in range(1, 44):  
    # 构造请求的URL,其中{page}会被循环中的page值替换  
    url = f'https://b.faloo.com/1163585_{page}.html'  
    # 设置请求头,伪装成浏览器访问  
    headers = {  
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'  
    }  
    # 发起GET请求,获取网页内容  
    response = requests.get(url=url, headers=headers)  
    # 使用parsel库的Selector类解析网页内容  
    selector = parsel.Selector(response.text)  
    # 使用CSS选择器提取小说的标题  
    title = selector.css('.c_l_title h1::text').get().replace('偷吃我外卖被辣哭,问我要索赔?   ', '')  
    # 去掉标题中不需要的文字  
    # 使用CSS选择器提取小说的所有段落内容  
    content_list = selector.css('div.noveContent p::text').getall()  
    # 将所有段落内容合并成一段长文本  
    content = '\n'.join(content_list)  
    # 打印提取到的小说标题和内容  
    print(title)  
    print(content)  
    # 将标题和内容写入到本地文件中  
    with open('偷吃我外卖被辣哭,问我要索赔?' + '.txt', mode='a', encoding='utf-8') as f:  
        # 写入标题  
        f.write(title)  
        # 换行  
        f.write('\n')  
        # 写入内容  
        f.write(content)  
        # 再次换行,为了区分不同章节  
        f.write('\n')

结果展示,小说文本以txt格式保存


4. 知乎回答爬取

import requests  # 导入数据请求模块
import re  # 导入正则
import json  # 导入json
# 请求链接
url = 'https://www.zhihu.com/question/584206512'
# 伪装浏览器
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送GET请求到知乎的问题页面  
response = requests.get(url=url, headers=headers)
# 问题标题
title = re.findall('<title data-rh="true">(.*?)</title>', response.text)[0]  # 使用正则表达式从返回的HTML中查找问题标题 
# 答案内容
html_data = re.findall('<script id="js-initialData" type="text/json">(.*?)</script', response.text)[0]  # 使用正则表达式查找包含答案内容的JSON字符串  
# 字符串转成字典
json_data = json.loads(html_data)  # 将JSON字符串解析为Python字典  
json_dict = json_data['initialState']['entities']['answers']  # 定位到答案所在的JSON字典部分 
for i in json_dict.keys():
    # 答案内容
    content = json_dict[i]['excerpt']
    # 答题者用户名
    name = json_dict[i]['author']['name']
    with open(title + '.txt', mode='a', encoding='utf-8')as f:  # 以追加模式打开文件(如果文件不存在则创建),将答案内容写入文件  
        f.write(f'网友 "{name}" 回答: {content}\n')
    print(content)

结果展示,文件名是问题,内容是回答,以txt保存

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

立Sir

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值