pandas nat_利用pandas爬取研招网信息

最新推荐文章于 2022-03-06 12:00:07 发布

weixin_39736934

最新推荐文章于 2022-03-06 12:00:07 发布

阅读量205

点赞数

文章标签： pandas nat pandas plot label

pandas是python的一个数据分析库,Numpy,Pandas,Matplotlib是用python进行数据分析的三剑客,但是很少人知道pandas也可以用来写爬虫

这里举一个很简单的例子

打开研招网,随便点进去了一个高校招生网,如图

这里只是举一个简单的例子,只是为了说明pandas在爬数据这里的用法,在以后碰到的其他场景中,可以结合这个例子,写出功能更加强大的代码

下图是我们要爬取的目标

接下来就是介绍pandas 中read_html这个方法的使用了

1.作用

快速获取在html中页面中table格式的数据

2.read_html函数

read_html函数的api:

pandas

实战开始

定位到table的位置

代码展示

可以看到简单的几行代码,就成功的爬下来了

import pandas as pd
url = 'http://gs.xauat.edu.cn/show.asp?id=2308'
tb = pd.read_html(url)
print(type(tb))

之后进行数据清洗,即可写成csv文件或者to_sql存入数据库,不赘述

这个简单的例子就讲完了,补充一下如果遇到反爬的403 可以换个思路,用requests发请求

还是很好用的,对吧!

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注