python解析json传入变量_Python爬虫爬取会计师协会网站的指定文章(实例57)

最新推荐文章于 2024-02-23 11:45:58 发布

譞而翾

最新推荐文章于 2024-02-23 11:45:58 发布

阅读量418

点赞数

文章标签： python解析json传入变量

本文链接：https://blog.csdn.net/weixin_33859931/article/details/112404323

版权

本文介绍如何使用Python结合requests和beautifulsoup库，批量爬取会计师协会网站的最新公告中的文章，提取标题和内容，并存储到word文件中。通过分析网页结构，找到文章标题对应的class为headword，从而实现数据提取。

摘要由CSDN通过智能技术生成

由于业务原因，需要经常关注“注册会计师协会”网站“最新公告”栏目里的“委员会专家提示”相关文章。不想每次进网站一个一个地点击，然后复制到word文件。如果能一次批量爬取，并存到word文件就好啦。

此处用到两个库，“requests”和“beautifulsoup”。“requests”用于发送HTTP请求，并获取网页的内容。“beautifulsoup”用于解析获取到的网页内容，非常简单又方便地为用户提供需要抓取的数据，比如文字内容，图片链接等。若未安装，则运行cmd，输入pip install requests及pip install beautifulsoup4。

库准备好后，就可以开始爬虫之旅了。先随便选择一篇文章，点击进去，看看网页的情况。单个文章的网页的Request Method(请求方法)一般都是get。如果不确定，可以点击"Network"，然后刷新页面，在左侧"Name"栏选第一个文件，然后再选"Headers"查看"Request Method"。由于请求方法是get，所以我们用requests获取链接信息的时候就要用get。将获取到的链接信息传递给wb_data变量，然后调用BeautifulSoup进行解析。此处，我们传入BeautifulSoup中的参数是wb_data.content，表示是二进制数据。还有一种是wb_data.text，表示是Unicode型的数据。由于使用.text，soup变量里的中文显示为乱码，所以此处使用.content。最后显示soup，就能看到这个网页里的信息。我们需要的文章标题和内容都在里面。

import requests
from bs4 import BeautifulSoup

url = 'http://www.bicpa.org.cn/dtzj/zxgg/B15903912099325.html'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.content)
soup

由于只想要标题和正文，所以直接在标题上点右键，选择“检查”(此处用谷歌Chrome浏览器)。浏览器右边出现如下窗口。可见标题对应的class为headword。因此，可以在soup中使用select方法，传入.headword获取这个class里的信息("."就表示按"class"选择)。我们可以看到标题连带一些语句信息就提取出来并存入了一个列表，这个列表中只有1个元素。

soup.select('.headword')
>>
[class="headword" colspan="2" height="40"> 北京注册会计师协会专业技术委员会专家提示〔2020〕第3号——对新金融准则下减值准备的关注  td>,
 <td class="headword" colspan="2" height="40"> td>]

然后使用.text方法将这个列表中的文本提取出来，并用strip()去掉首尾的空格，存到title变量。显示一下，就得到完整的标题。

#获取文章标题
title = soup.select('.headword')[0].text.strip()
title
>>
'北京注册会计师协会专业技术委员会专家提示〔2020〕第3号——对新金融准则下减值准备的关注'

类似的方法，可以获取到正文文本。通过“检查”正文文本，发现正文位于class = MsoNormal下面。因此使用soup.select(".MsoNormal")按class选取，其中的"."就表示class。正文内容存到列表content，要提取其文本内容，需要遍历这个列表，然后分别按文本提取。还有一部分文章的正文位于id