爬虫---爬取搜狐所有的链接中包含足球的网页内容

该博客介绍了如何使用爬虫技术从搜狐网站出发,抓取所有包含‘足球’关键词的网页内容。首先设定种子地址,然后获取网页HTML,通过正则表达式筛选链接、图片和下载文件。提取有效链接,过滤无效资源,将包含足球内容的网页保存为html文件,文件名按顺序编号。难点在于正确使用正则表达式匹配网页链接。
摘要由CSDN通过智能技术生成

过程:
种子地址:从哪里开始爬,可以是一个,也可以是多个
获取网页的html代码,还有一些元信息。
用正则:想要什么我就取什么。
1 链接:用于下次继续爬
2 图片
3 下载文件
取完了之后,保存,入库、写文件。
用数据做分析或者其他展示的用途。
练习:
爬取搜狐所有的链接,找到所有包含足球的网页内容,并进行下载保存。
文件序号从1.html。。。。。n.html
算法:
request访问sohu首页,获取源码
使用正则获取网页链接:建议大家获取所有的链接后打印一下内容,再看怎么处理链接。
处理网页链接:拼接http:// 过滤掉jpg\css\js\png等无效链接
放入爬取列表
爬之,判断是否包含关键字足球,如果有,保存到文件中。

# coding: utf-8
import requests
import re
r = requests.get("http://www.sohu.com")
#print(r.text)
valid_link = []
all_links = re.findall(r'href=\"(.*?)\" ',r.text)
for link in all_links:
    if link[-3:] not in ["ico","png","css","jpg","js","gif"]:
        if lin
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值