Python爬虫定向抓取静态网页

最新推荐文章于 2020-12-25 20:19:48 发布

一条活在淡水湖里的鱼

最新推荐文章于 2020-12-25 20:19:48 发布

阅读量176

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/qq_41768451/article/details/104741471

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

# 静态定向爬虫
# 爬取中国大学排名

import requests
from bs4 import BeautifulSoup
import bs4
# 定义从网页获取信息的函数
def getHTMLText(url):
  try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    return r.text
  except:
    return ''

# 将获取大学信息填充到列表
def fillUnivList(ulist,html):
    soup = BeautifulSoup(html,'html.parser')
    for tr in soup.find('tbody').children:
      if isinstance(tr,bs4.element.Tag):
        tds = tr('td')
        ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string])

# 打印数据
def printUnivList(ulist,num):
  for u in ulist:
    print("University:" + u[1] + " " + "Location:" + u[2] + " " + "Score:" + u[3] + "\n")

def main():
  uinfo = []
  url = 'http://zuihaodaxue.cn/zuihaodaxuepaiming2019.html'
  html = getHTMLText(url)
  fillUnivList(uinfo,html)
  printUnivList(uinfo,len(uinfo))
main()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一条活在淡水湖里的鱼

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫定向抓取静态网页

# 静态定向爬虫# 爬取中国大学排名import requestsfrom bs4 import BeautifulSoupimport bs4# 定义从网页获取信息的函数def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent...
复制链接

扫一扫