菜鸡爬虫入门——爬取全国大学排名

最新推荐文章于 2024-07-13 23:51:16 发布

一问都不知

最新推荐文章于 2024-07-13 23:51:16 发布

阅读量152

点赞数

文章标签： python

本文链接：https://blog.csdn.net/dsp1234566/article/details/113539056

版权

思路：

1.先获得url链接的html
2.再用BeautifulSoup库将html解析，在tbody中寻找tr，其中利用isinstance函数把不是标签类型的给剔除，然后把td存放到ulist列表里
3将ulist列表打印出来
三步思路对应着三个函数

代码：

import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        print

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一问都不知

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
菜鸡爬虫入门——爬取全国大学排名

思路：1.先获得url链接的html2.再用BeautifulSoup库将html解析，在tbody中寻找tr，其中利用isinstance函数把不是标签类型的给剔除，然后把td存放到ulist列表里3将ulist列表打印出来三步思路对应着三个函数代码：import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r=requests.get(url)
复制链接

扫一扫