爬虫---爬取搜狐所有的链接中包含足球的网页内容

最新推荐文章于 2024-03-10 20:38:58 发布

置顶

py_xiaobai

最新推荐文章于 2024-03-10 20:38:58 发布

阅读量316

点赞数

本文链接：https://blog.csdn.net/py_xiaobai/article/details/104361327

版权

该博客介绍了如何使用爬虫技术从搜狐网站出发，抓取所有包含‘足球’关键词的网页内容。首先设定种子地址，然后获取网页HTML，通过正则表达式筛选链接、图片和下载文件。提取有效链接，过滤无效资源，将包含足球内容的网页保存为html文件，文件名按顺序编号。难点在于正确使用正则表达式匹配网页链接。

摘要由CSDN通过智能技术生成

过程：
种子地址：从哪里开始爬，可以是一个，也可以是多个
获取网页的html代码，还有一些元信息。
用正则：想要什么我就取什么。
1 链接：用于下次继续爬
2 图片
3 下载文件
取完了之后，保存，入库、写文件。
用数据做分析或者其他展示的用途。
练习：
爬取搜狐所有的链接，找到所有包含足球的网页内容，并进行下载保存。
文件序号从1.html。。。。。n.html
算法：
request访问sohu首页，获取源码
使用正则获取网页链接：建议大家获取所有的链接后打印一下内容，再看怎么处理链接。
处理网页链接：拼接http:// 过滤掉jpg\css\js\png等无效链接
放入爬取列表
爬之，判断是否包含关键字足球，如果有，保存到文件中。

# coding: utf-8
import requests
import re
r = requests.get("http://www.sohu.com")
#print(r.text)
valid_link = []
all_links = re.findall(r'href=\"(.*?)\" ',r.text)
for link in all_links:
    if link[-3:] not in ["ico","png","css","jpg","js","gif"]:
        if lin

最低0.47元/天解锁文章

py_xiaobai

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫---爬取搜狐所有的链接中包含足球的网页内容

练习：爬取搜狐所有的链接，找到所有包含足球的网页内容，并进行下载保存。文件序号从1.html。。。。。n.html算法：request访问sohu首页，获取源码使用正则获取网页链接：建议大家获取所有的链接后打印一下内容，再看怎么处理链接。处理网页链接：拼接http:// 过滤掉jpg\css\js\png等无效链接放入爬取列表爬之，判断是否包含关键字足球，如果有，保存到文件中。#...
复制链接

扫一扫