爬虫入门之爬取静态网页表格数据

最新推荐文章于 2024-08-18 22:49:52 发布

小熊提伯斯

最新推荐文章于 2024-08-18 22:49:52 发布

阅读量1.3w

点赞数 2

分类专栏： Python学习文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_30500113/article/details/83783834

版权

本文介绍如何使用Python爬虫从指定网址抓取表格数据，并将其保存为CSV文件。重点讲解了内容解析部分，推荐使用Pyquery库，但也提到了其他解析方式的选择。

摘要由CSDN通过智能技术生成

我们的目标就是将这个表格中的数据爬下来保存成csv文件
目标链接:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html
在这里插入图片描述

内容解析部分我更喜欢使用Pyquery 你也可以使用其他的解析方式

#!/usr/bin/env python 
# -*- coding: utf-8 -*-
import requests
from pyquery import PyQuery as pq


def get_page(url):
    """发起请求 获得源码"""
    r = requests.get(url)
    r.encoding = 'utf8'
    html = r.text
    return html


def parse(text):
    """解析数据 写入文件"""
    doc = pq(text)
    # 获得每一行的tr标签
    tds = doc('table.table tbody tr.alt').items()
    for td in tds:
        rank = td.find('td:first-child').text()     # 排名
        name = td.find('div').text()  # 大学名称
        city = td.find('td:nth-child(3)').text()    # 城市