【爬虫】-【爬取某计算机教程网站的资源链接】

最新推荐文章于 2022-05-12 20:26:24 发布

YANGGEOL

最新推荐文章于 2022-05-12 20:26:24 发布

阅读量214

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/qq_46253184/article/details/112341247

版权

Python 专栏收录该内容

11 篇文章 6 订阅

订阅专栏

安装包

# 用于爬取网页页面数据
pip install requests
# 用于解析网页的数据
pip install beautifulsoup4

代码

# 导包
import requests
from bs4 import BeautifulSoup


# 爬取网址的链接
url = 'https://www.runoob.com/'
# 获取网页文档
req = requests.get(url=url)
# 解析网页文档
soup = BeautifulSoup(req.text)
# 找到包含资源链接的标签
data = soup.find('div', attrs={
    'class': 'col middle-column-home'
})
data = data.find_all('a')

# 存储数据文件名称
name = "python-spider.csv"
fw = open(name, 'w', encoding='utf-8-sig')
fw.write("学习资源名称，资源链接\n")

# 写入数据
for i in data:
    fw.write(i.h4.text + "," + i['href'] + "\n")

fw.close()
print("爬取数据成功")

截图

爬取到的网页
在这里插入图片描述
进行数据处理后的

保存后的数据

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

YANGGEOL

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【爬虫】-【爬取某计算机教程网站的资源链接】

安装包# 用于爬取网页页面数据pip install requests# 用于解析网页的数据pip install beautifulsoup4代码# 导包import requestsfrom bs4 import BeautifulSoup# 爬取网址的链接url = 'https://www.runoob.com/'# 获取网页文档req = requests.get(url=url)# 解析网页文档soup = BeautifulSoup(req.text)# 找
复制链接

扫一扫