爬虫东方财富网(tbody)获取其title和链接

该博客介绍了如何使用Python进行网络爬虫,从东方财富网抓取tbody中的title和链接。首先,导入必要的库,然后定义一个函数遍历所有页面,处理HTTP状态码确保页面成功下载。接着,清理title中的换行符并筛选出有效数据。最后,将数据转换为DataFrame并存储到MySQL数据库。
摘要由CSDN通过智能技术生成
import requests
from bs4 import BeautifulSoup
import pprint
import json

 导入爬虫所需要的包

def download_all_htmls():
    htmls=[]
    for idx in range(1):
        url=f"http://data.eastmoney.com/zjlx/00000{idx+1}.html"
        print("craw html:",url)
        r=requests.get(url)
        if r.status_code!=200:
            raise Exception("error")
        htmls.append(r.text)
    return htmls

我们需要访问需要爬虫的页面,因此我们应在jupyter中将所需要的网页下载下来。定义一个函数,在其中通过for循环将我们所需的全部页面都访问,如果r.status_code跟200不等时报错,否则将页面全部下载(r.status_code==200这是一个HTTP状态代码,意思是“OK”(例如:服务器成功地响应了HTTP请求))将其返回,以便后面的调用。

htmls=download_all_htmls()

将页面全部显示

import re
def parse_single_html(html):
    soup=BeautifulSoup(html,'html.parser')
    a1=soup.find_all("body")
    datas1=[]
    datas2=[]
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值