七绝--登楼

东风驾雨炎日后
无言携影上孤楼
烟锁涪江舟自斜
雎鸠关关使人愁

爬取<div id="mbnr"> <div id="nav"><a href="/">首页</a> > <a href="/tang/">唐</a></div><div id="scbt">二妃庙</div> <div id="sc1"> <table border="0" align="center"> <tbody><tr> <td><div id="scxx"><strong>朝代</strong>:唐 <strong>作者</strong>:高骈 <strong>体裁</strong>:七绝 <strong>类型</strong>:怀古 </div></td> </tr> </tbody></table> <table border="0" align="center"> <tbody><tr> <td id="scnr"> 帝舜南巡竟不还,二妃幽怨水云间。<br>当时珠泪知多少,直到于今竹尚斑。 </td> </tr> </tbody></table> </div> <div id="sc2" style="display:none;"></div> <div class="hsan"> <input id="shan1" type="image" src="/skin/hdsc/images/shan1.gif" onclick="javascript:convert();showdv("sc2");" title="显示竖排诗词"> <input id="shan2" type="image" src="/skin/hdsc/images/shan2.gif" onclick="showdv("sc1");" style="display:none;" title="显示横排诗词"> </div> <script type="text/javascript" language="javascript" src="/skin/hdsc/js/bsd.js"></script><script data-ad-client="ca-pub-5789084355642416" async="" src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js" data-checked-head="true"></script> <div class="h_line3">--------------------------</div> <p class="small alignright"><label onclick="showzx("zx");" class="ua"><strong>【诗词注释】</strong></label></p><div id="zx">竹尚斑:斑竹,又称湘妃竹。刚竹的变种,湖南特产,出于君山和九嶷山。民间传说斑竹是二妃的眼泪染成的,据晋张华《博物志》记载:"尧之女,舜之二妃,曰:'湘夫人'。帝崩,二妃啼,以涕挥竹,竹尽斑。"《述异记》云:"舜南巡,葬于苍梧,尧二女娥皇、女英泪下沾竹,久悉为之斑,亦名湘妃竹"。</div> <table width="100%"> <tbody><tr> <td width="50%"><p class="fy1"><a href="/tang/0802/17/b4769a5279593e53684de1982ebab793.html">少年行</a></p></td> <td width="50%"><p class="fy2"><a href="/tang/">返回列表</a></p></td> </tr> </tbody></table> <script type="text/javascript" language="javascript" src="/skin/hdsc/js/mad.js"></script><script data-ad-client="ca-pub-5789084355642416" async="" src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js" data-checked-head="true"></script> <div class="hb"></div> </div>中的二妃庙 朝代:唐 作者:高骈 体裁:七绝 类型:怀古 帝舜南巡竟
最新发布
03-21
<think>好的,用户想从HTML文件中提取《二妃庙》的相关信息,包括元数据和正文内容。首先,我需要考虑用户可能使用的工具和方法。通常,Python的BeautifulSoup库是处理HTML解析的常用工具,所以应该从这方面入手。 接下来,用户需要提取的具体字段有朝代、作者、体裁、类型以及正文内容。在HTML中,这些信息可能被包裹在特定的标签里,比如<div>或者<span>,可能带有类名或ID。需要确定这些标签的结构,可能需要查看示例HTML代码的结构。 比如,假设朝代和作者信息在一个类名为“poem-info”的<div>里,每个元数据项可能有<strong>标签标明类型,后面跟着对应的值。正文可能位于类名为“poem-content”的<div>中,每句诗可能在<p>标签里。 然后,我需要编写代码示例,使用BeautifulSoup来定位这些元素。需要处理可能存在的异常情况,比如某个信息缺失时的默认值。正则表达式可能用于提取朝代中的时间数字,比如“唐代”提取出“唐”。 此外,用户可能需要知道如何安装必要的库,比如requests和beautifulsoup4,以及如何处理不同的HTML结构,建议用户检查实际HTML结构并调整选择器。 最后,生成相关问题,帮助用户深入理解,比如处理动态页面、其他解析库、数据清洗、多首诗歌提取以及正则表达式的更多应用。</think>要从HTML文件中提取《二妃庙》的诗歌信息,可按以下步骤操作(以Python的BeautifulSoup库为例): ```python from bs4 import BeautifulSoup import re html = """假设的HTML结构 <div class="poem"> <h1>二妃庙</h1> <div class="metadata"> <p><strong>朝代:</strong>唐代</p> <p><strong>作者:</strong>高骈</p> <p><strong>体裁:</strong>七言绝句</p> <p><strong>类型:</strong>咏史</p> </div> <div class="content"> <p>帝舜南巡竟不还</p> <p>二妃幽怨水云间</p> <p>当时珠泪垂多少</p> <p>直到如今竹尚斑</p> </div> </div>""" soup = BeautifulSoup(html, 'html.parser') # 提取元数据 def extract_metadata(soup): metadata = {} items = soup.select('.metadata p') for item in items: key = item.strong.text.strip(':') value = item.contents[-1].strip() metadata[key] = value return metadata # 提取正文 def extract_content(soup): return [p.text for p in soup.select('.content p')] # 主程序 poem_data = { "标题": soup.h1.text, **extract_metadata(soup), "正文": extract_content(soup) } print(poem_data) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值