Python网络爬虫入门笔记九、定向爬虫实例

最新推荐文章于 2021-01-18 19:30:14 发布

RecycleBins

最新推荐文章于 2021-01-18 19:30:14 发布

阅读量319

点赞数 1

分类专栏： Python网络爬虫——入门篇文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tomatoarmys/article/details/105874024

版权

Python网络爬虫——入门篇专栏收录该内容

11 篇文章 0 订阅

订阅专栏

一、爬虫功能描述

输入：大学排名URL链接。

输出：大学排名信息的屏幕输出（排名，大学名称，总分）。

技术路线：requests-bs4。

定向爬虫：仅对输入URL进行爬取，不扩展爬取。

二、程序设计结构

步骤1：从网络上获取大学排名网页内容

步骤2：提取网页内容中信息到合适的数据结构

步骤3：利用数据结构展示并输出结果

上述步骤又对应以下步骤：

步骤1：从网络上获取大学排名网页内容

getHTMLText()

步骤2：提取网页内容中信息到合适的数据结构

fillUnivList()

步骤3：利用数据结构展示并输出结果

printUnivList()

以上步骤为正式编写前的的程序建构，下面给出这些函数的具体接口：

def getHTMLText(url):

return ""

def fillUnvList(ulist,html):

pass

def printUnivList(ulist,num):

print("Suc" + str(num))

再给出主函数来调用这些函数：

三、具体代码编写

由前面所学知识，可得以下代码，新增的代码片段均已给出注释。

该代码的思想是：

获取网页内容，将网页信息转化为文本信息
利用bs4库对网页文本信息进行解析
找到存储信息的tbody标签，遍历其所有的子节点（因为子节点不一定是标签，所以还需要进行类型判断）
遍历每个标签类型的子节点tr时，将该标签中所有的td标签存入一个列表tds（一个tr存储一个大学的信息）
因为每个td标签中的string即为需要的信息，所以选择指定的td标签的string，将这些string存入一个列表a
将a列表再加入一个列表ulist，再重复上述过程，直到每个tr都会有一个a列表加入ulist列表
输出获取的信息

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python网络爬虫入门笔记九、定向爬虫实例

一、爬虫功能描述输入：大学排名URL链接。输出：大学排名信息的屏幕输出（排名，大学名称，总分）。技术路线：requests-bs4。定向爬虫：仅对输入URL进行爬取，不扩展爬取。二、程序设计结构步骤1：从网络上获取大学排名网页内容步骤2：提取网页内容中信息到合适的数据结构步骤3：利用数据结构展示并输出结果上述步骤又对应以下步骤：步骤1：从网...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。