爬虫东方财富网（tbody）获取其title和链接

最新推荐文章于 2022-11-23 15:00:55 发布

头上有鸡jio

最新推荐文章于 2022-11-23 15:00:55 发布

阅读量648

点赞数

分类专栏：爬虫文章标签： python list

本文链接：https://blog.csdn.net/qq_52354050/article/details/120856428

版权

该博客介绍了如何使用Python进行网络爬虫，从东方财富网抓取tbody中的title和链接。首先，导入必要的库，然后定义一个函数遍历所有页面，处理HTTP状态码确保页面成功下载。接着，清理title中的换行符并筛选出有效数据。最后，将数据转换为DataFrame并存储到MySQL数据库。

摘要由CSDN通过智能技术生成

import requests
from bs4 import BeautifulSoup
import pprint
import json

导入爬虫所需要的包

def download_all_htmls():
    htmls=[]
    for idx in range(1):
        url=f"http://data.eastmoney.com/zjlx/00000{idx+1}.html"
        print("craw html:",url)
        r=requests.get(url)
        if r.status_code!=200:
            raise Exception("error")
        htmls.append(r.text)
    return htmls

我们需要访问需要爬虫的页面，因此我们应在jupyter中将所需要的网页下载下来。定义一个函数，在其中通过for循环将我们所需的全部页面都访问，如果r.status_code跟200不等时报错，否则将页面全部下载（r.status_code==200这是一个HTTP状态代码，意思是“OK”（例如：服务器成功地响应了HTTP请求))将其返回，以便后面的调用。

htmls=download_all_htmls()

将页面全部显示

import re
def parse_single_html(html):
    soup=BeautifulSoup(html,'html.parser')
    a1=soup.find_all("body")
    datas1=[]
    datas2=[]

最低0.47元/天解锁文章

头上有鸡jio

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录