0基础学习爬虫系列：网页内容爬取

AI掘金

已于 2024-09-07 19:48:55 修改

阅读量1.3k

点赞数 10

文章标签：学习爬虫 python AI编程

于 2024-09-07 19:44:27 首次发布

本文链接：https://blog.csdn.net/qq_36918149/article/details/141998185

版权

1.背景

今天我们来实现，监控网站最新数据爬虫。在信息爆炸的年代，能够有一个爬虫帮你，将你感兴趣的最新消息推送给你，能够帮你节约非常多时间，同时确保不会miss重要信息。

爬虫应用场景：

应用场景	主要功能	数据来源示例	使用目的
搜索引擎优化 (SEO)	分析关键词密度、外部链接质量等	网站元数据、链接	提升网站在搜索引擎中的排名
市场研究	收集竞品信息、价格比较	电商网站、行业报告	制定更有效的市场策略
舆情监控	监测社交媒体、新闻站点的评论	微博、微信公众号、新闻网站	及时响应市场变化，维护品牌形象
数据挖掘	抓取结构化或非结构化数据	各种在线资源	为数据分析和机器学习提供数据支持
学术研究	收集实验数据	社交媒体、经济数据网站	支持研究项目，如社会学、经济学等
电子商务	监测商品信息、库存、价格、用户评价等	电商平台	动态调整库存及价格策略
内容聚合	整合来自不同来源的内容	新闻网站、博客	提供一站式信息获取服务
广告投放	收集用户浏览习惯	用户浏览记录、社交媒体	实现个性化广告推送
安全审计	检测网站漏洞、未授权公开信息	网站代码、配置文件	防范安全风险
自动化测试	模拟用户操作进行功能性和稳定性测试	测试环境中的网站或应用	保证产品质量

2.环境准备

1）通义千问 ：https://tongyi.aliyun.com/qianwen
2）Python环境搭建：https://blog.csdn.net/qq_36918149/article/details/141833545?spm=1001.2014.3001.5501

3.步骤

1）怎么下手？让通义千问，告诉我们
在这里插入图片描述
2）准备目标url
用爬虫监控，四川最新招标公告：https://ggzyjy.sc.gov.cn/jyxx/002002/transactionInfo.html

3）获取目标数据的具体位置？
在这里插入图片描述

4）让ai 帮我们生成，爬虫脚本

> 我需要获取，目标url中，采购列表中Top 10 采购信息，字段包括：采购项目经名称、发布时间、招标公告链接
这是页面源码：view-source:https://ggzyjy.sc.gov.cn/jyxx/002002/transactionInfo.html
示例如下：

##源码：
<li>

<p class="clearfix">

<a class="l" target="_blank" href="/jyxx/002002/002002001/20240907/8a69cd7891ca47150191cb5b296c6da1.html">阿坝藏族羌族自治州交通运输服务中心购买电脑招标公告</a>

<span class="r fuInfoDate ">2024-09-07</span>

</p>

<span>来源：<i class="jessic" >四川政府采购网</i></span>

<span>业务类型：<i class="ywlx" data-value="002002001" ></i></span>

<span>信息类型：<i>采购公告</i></span>

</li>

##需要的信息：
###项目名：阿坝藏族羌族自治州交通运输服务中心购买电脑招标公告
###发布时间：2024-09-07
###招标公告链接：jyxx/002002/002002001/20240907/8a69cd7891ca47150191cb5b296c6da1.html

5）Python脚本import 报错，怎么处理？
在这里插入图片描述
6）直接让ai 给解决方案

7）teminal 执行这2命令，引入依赖包

需要引入依赖包
pip install requests
pip install beautifulsoup4
在这里插入图片描述
8）run 一遍ai 生成的Python脚本，已经能够从网页中提取出关键信息了

9）【进阶】怎么用交互页面展示出来？让Ai ，帮我们生成代码
提示词：

这是页面源码：view-source:https://ggzyjy.sc.gov.cn/jyxx/002002/transactionInfo.html

示例如下：
##源码：
<li>

<p class="clearfix">

<a class="l" target="_blank" href="/jyxx/002002/002002001/20240907/8a69cd7891ca47150191cb5b296c6da1.html">阿坝藏族羌族自治州交通运输服务中心购买电脑招标公告</a>

<span class="r fuInfoDate ">2024-09-07</span>

</p>

<span>来源：<i class="jessic" >四川政府采购网</i></span>

<span>业务类型：<i class="ywlx" data-value="002002001" ></i></span>

<span>信息类型：<i>采购公告</i></span>

</li>

##需要的信息：
###项目名：阿坝藏族羌族自治州交通运输服务中心购买电脑招标公告
###发布时间：2024-09-07
###招标公告链接：jyxx/002002/002002001/20240907/8a69cd7891ca47150191cb5b296c6da1.html

请使用交互界面，输出最新的10条通知，每1分钟刷新一次最新数据，每条通知后面都都可以访问，采购公告，点击可以直接打开网页。 

交互页面格式要求：
1）内容左对齐
2）同一条招标公告 在同一行展示