pandas是python的一个数据分析库,Numpy,Pandas,Matplotlib是用python进行数据分析的三剑客,但是很少人知道pandas也可以用来写爬虫
这里举一个很简单的例子
打开研招网,随便点进去了一个高校招生网,如图
![16740d9dd6cee2cde80e3cbd8d79ad60.png](https://i-blog.csdnimg.cn/blog_migrate/4ead9e7ec8d23e0065647b640ff41a2a.jpeg)
![ab49ebd2f6bfa59ec9c653d088d870ea.png](https://i-blog.csdnimg.cn/blog_migrate/0af2e109e42f271491447567266627aa.jpeg)
这里只是举一个简单的例子,只是为了说明pandas在爬数据这里的用法,在以后碰到的其他场景中,可以结合这个例子,写出功能更加强大的代码
下图是我们要爬取的目标
![fd4abb5f1e1d40b275027f5a9debc2e7.png](https://i-blog.csdnimg.cn/blog_migrate/49ab234d5d4e632514f01c951c361c61.jpeg)
接下来就是介绍pandas 中read_html这个方法的使用了
1.作用
快速获取在html中页面中table格式的数据
2.read_html函数
read_html函数的api:
pandas
实战开始
定位到table的位置
![e73bf76a8bea121b50c0f33de3df260c.png](https://i-blog.csdnimg.cn/blog_migrate/97786370d2ffb9723dd1dcbcd97f160a.jpeg)
代码展示
![bf6292166302190ee58a0e652dd6fc11.png](https://i-blog.csdnimg.cn/blog_migrate/89882de697fb6eb35f7c648d1b74679f.jpeg)
可以看到简单的几行代码,就成功的爬下来了
import pandas as pd
url = 'http://gs.xauat.edu.cn/show.asp?id=2308'
tb = pd.read_html(url)
print(type(tb))
之后进行数据清洗,即可写成csv文件或者to_sql存入数据库,不赘述
这个简单的例子就讲完了,补充一下如果遇到反爬的403 可以换个思路,用requests发请求
![c137c3fac1a0681b502ac3403f7da010.png](https://i-blog.csdnimg.cn/blog_migrate/0ccfd120d5155a7798c465602d97c689.jpeg)
还是很好用的,对吧!