python解析json传入变量_Python爬虫爬取会计师协会网站的指定文章(实例57)

由于业务原因,需要经常关注“注册会计师协会”网站“最新公告”栏目里的“委员会专家提示”相关文章。不想每次进网站一个一个地点击,然后复制到word文件。如果能一次批量爬取,并存到word文件就好啦。

92f1323276889e277e5a17494582e256.png

此处用到两个库,“requests”和“beautifulsoup”。“requests”用于发送HTTP请求,并获取网页的内容。“beautifulsoup”用于解析获取到的网页内容,非常简单又方便地为用户提供需要抓取的数据,比如文字内容,图片链接等。若未安装,则运行cmd,输入pip install requests及pip install beautifulsoup4。

库准备好后,就可以开始爬虫之旅了。先随便选择一篇文章,点击进去,看看网页的情况。单个文章的网页的Request Method(请求方法)一般都是get。如果不确定,可以点击"Network",然后刷新页面,在左侧"Name"栏选第一个文件,然后再选"Headers"查看"Request Method"。由于请求方法是get,所以我们用requests获取链接信息的时候就要用get。将获取到的链接信息传递给wb_data变量,然后调用BeautifulSoup进行解析。此处,我们传入BeautifulSoup中的参数是wb_data.content,表示是二进制数据。还有一种是wb_data.text,表示是Unicode型的数据。由于使用.text,soup变量里的中文显示为乱码,所以此处使用.content。最后显示soup,就能看到这个网页里的信息。我们需要的文章标题和内容都在里面。

d8b9786894866d670ee3373ba505a3bc.png

import requests
from bs4 import BeautifulSoup

url = 'http://www.bicpa.org.cn/dtzj/zxgg/B15903912099325.html'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.content)
soup

1247e69c5db58c6d0142233e0c020029.png

由于只想要标题和正文,所以直接在标题上点右键,选择“检查”(此处用谷歌Chrome浏览器)。浏览器右边出现如下窗口。可见标题对应的class为headword。因此,可以在soup中使用select方法,传入.headword获取这个class里的信息("."就表示按"class"选择)。我们可以看到标题连带一些语句信息就提取出来并存入了一个列表,这个列表中只有1个元素。

14f084b40a1db53991332860d0bf9e65.png

soup.select('.headword')
>>
[class="headword" colspan="2" height="40"> 北京注册会计师协会专业技术委员会专家提示〔2020〕第3号——对新金融准则下减值准备的关注  td>,
 <td class="headword" colspan="2" height="40"> td>]

然后使用.text方法将这个列表中的文本提取出来,并用strip()去掉首尾的空格,存到title变量。显示一下,就得到完整的标题。

#获取文章标题
title = soup.select('.headword')[0].text.strip()
title
>>
'北京注册会计师协会专业技术委员会专家提示〔2020〕第3号——对新金融准则下减值准备的关注'

类似的方法,可以获取到正文文本。通过“检查”正文文本,发现正文位于class = MsoNormal下面。因此使用soup.select(".MsoNormal")按class选取,其中的"."就表示class。正文内容存到列表content,要提取其文本内容,需要遍历这个列表,然后分别按文本提取。还有一部分文章的正文位于id 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更这些源码资源,以适应各平台技术的最发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值