AI网络爬虫：用kimichat自动批量提取网页内容

AIGCTribe

于 2024-05-14 07:03:58 发布

阅读量1.8k

点赞数 18

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AIGCTribe/article/details/138834000

版权

首先，在网页中按下F12键，查看定位网页元素：

然后在kimi中输入提示词：

你是一个Python编程专家，要完成一个爬取网页内容的Python脚本，具体步骤如下：

在F盘新建一个Excel文件：提示词.xlsx

打开网页：https://lobehub.com/zh/assistants

定位class="layoutkit-flexbox css-15l7r2q acss-vjqh32"的div标签；

定位div标签里面所有的a标签，

提取a标签的href属性值，前面加上”https://lobehub.com/zh”,构造成一个URL；

解析这个URL的源代码；

在源代码中定位class="acss-1ce01rv"的h1标签，提取其文本内容作为提示词标题，写入”提示词.xlsx”这个Excel文件的第1列，列的标头为：提示词标题；

在源代码中定位class="layoutkit-flexbox css-o3n4io acss-pl6lf1"的h2标签，提取其文本内容作为提示词简介，写入”提示词.xlsx”这个Excel文件的第2列，列的标头为：提示词简介；

在源代码中定位class="acss-7ksih7"的div标签，提取其全部文本内容作为提示词内容，写入”提示词.xlsx”这个Excel文件的第3列，列的标头为：提示词内容；

注意：

每一步都要输出相关信息到屏幕；

网站有放爬虫机制，要通过设置请求头、延迟请求等方式来进行应对

源代码：

import requests

from bs4 import BeautifulSoup

import pandas as pd

from openpyxl import Workbook

# 定义目标URL

url = "https://lobehub.com/zh/assistants"

# 设置请求头，模拟浏览器访问

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'

}

# 发送请求并获取网页内容

response = requests.get(url, headers=headers)

response.raise_for_status() # 如果请求失败，将抛出异常

# 解析网页内容

soup = BeautifulSoup(response.text, 'html.parser')

# 定位div标签并提取所有a标签的href属性

div_tag = soup.find('div', class_='layoutkit-flexbox css-15l7r2q acss-vjqh32')

a_tags = div_tag.find_all('a')

# 构造完整的URL

urls = ["https://lobehub.com/zh" + tag.get('href') for tag in a_tags]

# 定义Excel文件路径

excel_path = 'F:/提示词.xlsx'

# 创建工作簿和工作表

wb = Workbook()

ws = wb.active

# 设置列的标头

ws.append(['提示词标题', '提示词简介', '提示词内容'])

# 循环处理每个URL

for idx, url in enumerate(urls, start=1):

print(f"正在处理URL: {url}")

# 发送请求并获取网页内容

response = requests.get(url, headers=headers)

response.raise_for_status()

# 解析网页内容

soup = BeautifulSoup(response.text, 'html.parser')

# 提取h1标签文本内容

h1_tag = soup.find('h1', class_='acss-1ce01rv')

title = h1_tag.get_text(strip=True) if h1_tag else '无标题'

# 提取h2标签文本内容

h2_tag = soup.find('h2', class_='layoutkit-flexbox css-o3n4io acss-pl6lf1')

introduction = h2_tag.get_text(strip=True) if h2_tag else '无简介'

# 提取div标签文本内容

div_tag = soup.find('div', class_='acss-7ksih7')

content = div_tag.get_text(strip=True) if div_tag else '无内容'

# 将提取的内容写入Excel文件

ws.append([title, introduction, content])

# 打印到屏幕

print(f"标题: {title}")

print(f"简介: {introduction}")

print(f"内容: {content}")

# 保存Excel文件

wb.save(excel_path)

print(f"数据已写入Excel文件: {excel_path}")

关注

18
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

AIGCTribe CSDN认证博客专家 CSDN认证企业博客

码龄1年

417: 原创

73万+: 周排名

9180: 总排名

29万+: 访问

: 等级

7928: 积分

2333: 粉丝

3260: 获赞

31: 评论

3235: 收藏

私信

关注

热门文章

最新评论

AI办公自动化：用kimi批量将word文档部分文件名保存到Excel中
明月一帆风: 感谢分享，提示词很详细，按照您的思路能实现目标。
Coze扣子开发指南：搭建一个免费的微信公众号AI客服
m0_62196601: 阿里云AppFlow：让大模型当您的微信公众号客服，具体使用参见这篇文章（https://blog.csdn.net/m0_62196601/article/details/140286974）
AI播客下载：Edge of AI （AI最新应用场景和发展趋势）
小王毕业啦: 博主的这篇文章让我对AI播客下载这一主题有了全新的认识，通过详细的细节描写，我深刻感受到了博主的专业功底和热情。文章中涉及的AI最新应用场景和发展趋势让我受益匪浅，让我对未来的发展充满了期待。希望博主能够继续分享更多优质内容，同时也期待得到博主的指导，共同进步成长。衷心感谢博主的分享和支持！
AI播客下载：Edge of AI （AI最新应用场景和发展趋势）
小王毕业啦: 博主的文章真的让我大开眼界，对于AI播客下载的主题，博主的深度分析让我对这一领域有了更深入的了解。文章中所描述的AI最新应用场景和发展趋势，让我看到了科技的未来发展方向。博主的写作技巧非常到位，细节描写生动具体，让人读后感觉受益匪浅。希望博主能够继续分享更多有价值的内容，让更多人受益。非常感谢博主的辛勤付出和分享精神，期待与博主共同进步，共同探讨。
AI炒股：用Kimi获取美股的历史成交价格并画出股价走势图
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。