本节总结一下各种文本内容爬取的方法,进行一下案例实战,附详细解析,包含:微博评论爬取;豆瓣电影信息爬取;飞卢网小说爬取;知乎问答爬取。
1. 微博评论爬取
import re # 导入正则表达式模块,用于提取文本中的中文字符
import requests # 导入requests模块,用于发起网络请求
import pandas as pd # 导入pandas模块,用于数据处理和保存到Excel文件
# 设置要爬取的微博评论页面的URL
url = 'https://m.weibo.cn/comments/hotflow?id=4784937075214225&mid=4784937075214225&max_id_type=0'
# 设置请求头,伪装成浏览器进行访问,避免被服务器识别为爬虫
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发起GET请求,获取微博评论页面的数据
response = requests.get(url=url, headers=headers)
# 初始化一个空列表,用于存储爬取到的评论信息
lis = []
# 遍历响应数据中的评论列表
for index in response.json()['data']['data']:
# 使用正则表达式提取评论中的中文字符,并拼接成字符串
content = ''.join(re.findall('[\u4e00-\u9fa5]+', index['text']))
# 构造一个字典,存储爬取到的评论信息
dit = {
'用户': index['user']['screen_name'], # 用户名
'地区': index['source'].replace('来自', ''), # 地区,这里简单地将来源文本中的“来自”替换为空字符串
'评论': content, # 评论内容
'日期': index['created_at'] # 评论日期
}
# 将构造好的字典添加到列表中
lis.append(dit)
# 打印爬取到的评论信息(注:这行代码可以注释掉,仅用于调试)
print(dit)
# 将列表转换为pandas DataFrame,方便后续处理
pd_data = pd.DataFrame(lis)
# 将DataFrame保存到Excel文件中
pd_data.to_excel('微博评论.xlsx')
结果展示,评论信息保存在excel中
2. 豆瓣TOP250电影信息爬取
import requests # 导入requests库,用于发送网络请求
import parsel # 导入parsel库,用于解析HTML或XML数据
import csv # 导入csv库,用于写入CSV文件
import time # 导入time库,用于控制程序运行时间或休眠
# 以追加模式打开文件,用于写入豆瓣电影Top250的信息
f = open('豆瓣Top250.csv', mode='a', encoding='utf-8', newline='')
# 定义csv文件的列名
csv_writer = csv.DictWriter(f, fieldnames=[
'标题', # 电影标题
'导演', # 导演
'演员', # 演员
'电影年份', # 电影年份
'拍摄国家', # 拍摄国家
'电影类型', # 电影类型
'电影评分', # 电影评分
'评论人数', # 评论人数
'电影简介', # 电影简介
])
# 写入CSV文件的列名(即表头)
csv_writer.writeheader()
# 初始化一个变量num,用于控制爬取的页码
num = 1
for page in range(0, 250, 25):
print(f'正在爬取第{num}页数据内容')
num += 1 # 更新页码
time.sleep(1) # 暂停1s,防止更新过于频繁
# 1. 发送请求, 确定url地址 然后对其发送请求
url = f'https://movie.douban.com/top250?start={page}&filter='
# User-Agent 浏览器的基本标识 基本信息 headers请求头 主要是把python代码进行伪装
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}
response = requests.get(url=url, headers=headers) # 发送GET请求,获取响应内容
selector = parsel.Selector(response.text) # 使用parsel库解析HTML内容
# css选择器 主要根据标签属性内容提取数据
lis = selector.css('.grid_view li') # 获取所有li标签 返回的数据 列表, 列表里面没一个元素都是selector对象
for li in lis:
title = li.css('.info .hd span.title:nth-child(1)::text').get() # 电影的名字
movie_info_list = li.css('.bd p:nth-child(1)::text').getall() # 电影的信息
# getall 返回的是列表 strip() 去除字符串左右两端空格
actor_list = movie_info_list[0].strip().split(' ')
if len(actor_list) > 1:
actor_1 = actor_list[0].replace('导演: ', '') # 导演
actor_2 = actor_list[1].replace('主演: ', '').replace('/...', '') # 主演
movie_info = movie_info_list[1].strip().split(' / ')
movie_year = movie_info[0] # 电影的年份
movie_country = movie_info[1] # 电影的国家
movie_type = movie_info[2] # 电影的类型
movie_sum = li.css('.inq::text').get() # 电影简介
movie_num = li.css('.rating_num::text').get() # 电影评分
comment = li.css('.star span:nth-child(4)::text').get().replace('人评价', '') # 评论人数
else:
actor_1 = actor_list[0]
actor_2 = 'None'
dit = { # 将提取到的信息构造成一个字典
'标题': title,
'导演': actor_1,
'演员': actor_2,
'电影年份': movie_year,
'拍摄国家': movie_country,
'电影类型': movie_type,
'电影评分': movie_num,
'评论人数': comment,
'电影简介': movie_sum,
}
csv_writer.writerow(dit) # 将提取到的电影信息写入CSV文件
print(title, actor_1, actor_2, movie_year, movie_country, movie_type, movie_sum, movie_num, comment, sep='|')
结果展示,电影信息以CSV文件保存
3. 飞卢网小说爬取
"""
多页 多个数据采集, 我们要去分析, 请求url地址变化规律
"""
import requests # 导入requests库,用于发起网络请求
import parsel # 导入parsel库,用于解析HTML内容
# 遍历页码,从1到43
for page in range(1, 44):
# 构造请求的URL,其中{page}会被循环中的page值替换
url = f'https://b.faloo.com/1163585_{page}.html'
# 设置请求头,伪装成浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
# 发起GET请求,获取网页内容
response = requests.get(url=url, headers=headers)
# 使用parsel库的Selector类解析网页内容
selector = parsel.Selector(response.text)
# 使用CSS选择器提取小说的标题
title = selector.css('.c_l_title h1::text').get().replace('偷吃我外卖被辣哭,问我要索赔? ', '')
# 去掉标题中不需要的文字
# 使用CSS选择器提取小说的所有段落内容
content_list = selector.css('div.noveContent p::text').getall()
# 将所有段落内容合并成一段长文本
content = '\n'.join(content_list)
# 打印提取到的小说标题和内容
print(title)
print(content)
# 将标题和内容写入到本地文件中
with open('偷吃我外卖被辣哭,问我要索赔?' + '.txt', mode='a', encoding='utf-8') as f:
# 写入标题
f.write(title)
# 换行
f.write('\n')
# 写入内容
f.write(content)
# 再次换行,为了区分不同章节
f.write('\n')
结果展示,小说文本以txt格式保存
4. 知乎回答爬取
import requests # 导入数据请求模块
import re # 导入正则
import json # 导入json
# 请求链接
url = 'https://www.zhihu.com/question/584206512'
# 伪装浏览器
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送GET请求到知乎的问题页面
response = requests.get(url=url, headers=headers)
# 问题标题
title = re.findall('<title data-rh="true">(.*?)</title>', response.text)[0] # 使用正则表达式从返回的HTML中查找问题标题
# 答案内容
html_data = re.findall('<script id="js-initialData" type="text/json">(.*?)</script', response.text)[0] # 使用正则表达式查找包含答案内容的JSON字符串
# 字符串转成字典
json_data = json.loads(html_data) # 将JSON字符串解析为Python字典
json_dict = json_data['initialState']['entities']['answers'] # 定位到答案所在的JSON字典部分
for i in json_dict.keys():
# 答案内容
content = json_dict[i]['excerpt']
# 答题者用户名
name = json_dict[i]['author']['name']
with open(title + '.txt', mode='a', encoding='utf-8')as f: # 以追加模式打开文件(如果文件不存在则创建),将答案内容写入文件
f.write(f'网友 "{name}" 回答: {content}\n')
print(content)
结果展示,文件名是问题,内容是回答,以txt保存