新手python3+Beautiful Soup 定向爬取表格实例

最新推荐文章于 2024-03-19 20:34:59 发布

weixin_41730416

最新推荐文章于 2024-03-19 20:34:59 发布

阅读量4.4k

点赞数

分类专栏：实例训练文章标签： python爬虫新手实例

本文链接：https://blog.csdn.net/weixin_41730416/article/details/86755582

版权

本文是新手使用Python3和BeautifulSoup进行网页爬虫的一个简单实例，旨在爬取网页上的第二个表格内容。作者首先介绍了爬取思路，确定了目标HTML位置，然后分享了三个函数：getHTMLText用于获取网页HTML，fillulist用于提取表格数据，printlist则负责数据输出。文章最后指出该例子仍有改进空间，期待读者指导。

摘要由CSDN通过智能技术生成

新手做的，很简单一个例子

首先打开网站页面

先简单梳理一下思路把，先确定一下爬取页面地址和所需信息在html中的位置

了链接为：

http://www.xinfadi.com.cn/marketanalysis/0/list/1.shtml

检查过后发现行情信在第二个table标签中的tbody标签中

本来想通过定位第二个tbody的标签的方式进行爬取，但是基础太差没有做出来（有知道的大佬可以在后面回复一下qwq）

先上代码吧，后面再慢慢一点点分析

import requests
import bs4
from bs4 import BeautifulSoup


def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""


def fillulist(ulist, html):
    soup = BeautifulSoup(html, "html.parser")
    for tr in soup.find('table', {'class': 'hq_table'}).children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string, tds[4].str