python——爬取网页排名定向爬虫(6)

本文介绍了如何使用Python进行定向爬虫,专注于获取特定网站的大学排名信息。首先,检查了目标网站没有设置爬虫限制,然后详细讲解了爬取过程,包括查看网页源代码、设计程序结构,以及如何从HTML中提取信息并存储为二维数据结构,最终展示和输出结果。
摘要由CSDN通过智能技术生成

定向爬虫

定义:定向爬虫可以精准的获取目标站点信息。仅对输入URL进行爬取,不拓展爬取。

【实例练习】

【中国的大学排名爬取】
1 查看网页是否对爬虫有限制
1.查看 robots.txt
在这里插入图片描述
无robots.txt文件说明无爬虫限制
2.查看原网页
在这里插入图片描述
要提取的信息被封装在html内
2.程序的结构设计
步骤1:从网络上获取大学排名网页内容
步骤2:提取网页内容中信息到合适的数据结构(二维数据)
步骤3:利用数据结构展示并输出结果
在这里插入图片描述
属于二维数据

import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url): #获取该网页内容
    try:
        r=requests.get(url,timeout=30
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值