Pandas爬虫,竟能如此简单!

在这里插入图片描述
众所周知,一般的爬虫套路无非是构造请求、解析网页、提取要素、存储数据等步骤。构造请求主要用到requests库,提取要素用的比较多的有xpath、bs4、css和re。一个完整的爬虫,代码量少则几十行,多则几百行,对于新手来说学习成本还是比较高的。

那么,有没有什么方法只用几行代码就能爬下所需数据呢?答案是pandas。J哥自从知道了这个神器,尝试了多个网页数据爬取,屡战屡胜,简直不能再舒服!这家伙也太适合初学爬虫的小伙伴玩耍了吧!

本文目录如下:
在这里插入图片描述

定义

pandas中的pd.read_html()这个函数,功能非常强大,可以轻松实现抓取Table表格型数据。无需掌握正则表达式或者xpath等工具,短短的几行代码就可以将网页数据抓取下来。

原理

Table表格型数据网页结构

pandas适合抓取Table表格型数据,那么咱们首先得知道什么样的网页具有Table表格型数据结构(有html基础的大佬可自行跳过这一part)。

我们先来看个简单的例子。(快捷键F12可快速查看网页的HTML结构)
在这里插入图片描述
从以上网站可以看出,数据存储在一个table表格中,thread为表头,tbody为表格数据,tbody中的一个tr对应表中的一行,一个td对应一个表中元素。

我们再来看一个例子:
在这里插入图片描述
也许你已经发现了规律,以Table结构展示的表格数据,大致的网页结构如下:

<table class="..." id="...">
     <thead>
     <tr>
     <th>...</th>
     </tr>
     </thead>
     <tbody>
        <tr>
            <td>...</td>
        </tr>
        <tr>...</tr>
        <tr>...</tr
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值