爬取新闻网页中的＜P＞的匹配问题

最新推荐文章于 2024-05-02 17:43:47 发布

阿智智

最新推荐文章于 2024-05-02 17:43:47 发布

阅读量660

点赞数 1

分类专栏： Python Python爬虫技术文章标签： Python爬虫匹配HTML段落

本文链接：https://blog.csdn.net/robertchenguangzhi/article/details/108053282

版权

Python 同时被 2 个专栏收录

44 篇文章 0 订阅

订阅专栏

Python爬虫技术

8 篇文章 0 订阅

订阅专栏

问题描述

爬取新闻网页，HTML代码如下：

<div id=ozoom style="ZOOM: 100%">
<founder-content>
<P> 上图：1953年3月11日，我国第一座自动化的炼铁炉——鞍山钢
铁公司第8号炼铁炉开始出铁了。铁水经过化验，质量很好。这是
开始出铁时，冶金部门的领导同志、苏联专家等正在参观的情形。
</P>
....

看到上述新闻主体内容写入到中，我在爬虫代码中匹配时写的仍然是大写的P，如下：

import requests
from bs4 import BeautifulSoup

class Content:
    def __init__(self, url, title, body):
        self.url = url
        self.title = title
        self.body = body
def getPage(url):
    req = requests.get(url)
    req.encoding='utf-8'
    return BeautifulSoup(req.text, 'html.parser')
# 中国纪检监察报
def scrapeJCDaily(url):
    bs = getPage(url)
    title = bs.find('h1').text
    lines = bs.find('div',style="ZOOM: 100%").find_all('P')
    body = '\n'.join([line.text for line in lines])
    return Content(url, title, body)

url = 'http://www.jjjcb.cn/content/2019-08/29/content_81276.htm'
content = scrapeJCDaily(url)
print('Title: {}'.format(content.title))
print('URL: {}\n'.format(content.url))
print(content.body)

但是，爬取的结果为：
运行结果
没爬取到上述的段落内容。问题出在哪里呢？

解决方案

在利用Beautiful Soup查找时，在HTML代码中的段落标记不管是用，还是用，查找匹配时，通通用小写来匹配。亦即将代码

lines = bs.find('div',style="ZOOM: 100%").find_all('P')

改为：

lines = bs.find('div',style="ZOOM: 100%").find_all('p')

即可得到正确结果：

阿智智

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录