python解析json传入变量_Python爬虫爬取会计师协会网站的指定文章(实例57)

本文介绍如何使用Python结合requests和beautifulsoup库,批量爬取会计师协会网站的最新公告中的文章,提取标题和内容,并存储到word文件中。通过分析网页结构,找到文章标题对应的class为headword,从而实现数据提取。
摘要由CSDN通过智能技术生成

由于业务原因,需要经常关注“注册会计师协会”网站“最新公告”栏目里的“委员会专家提示”相关文章。不想每次进网站一个一个地点击,然后复制到word文件。如果能一次批量爬取,并存到word文件就好啦。

92f1323276889e277e5a17494582e256.png

此处用到两个库,“requests”和“beautifulsoup”。“requests”用于发送HTTP请求,并获取网页的内容。“beautifulsoup”用于解析获取到的网页内容,非常简单又方便地为用户提供需要抓取的数据,比如文字内容,图片链接等。若未安装,则运行cmd,输入pip install requests及pip install beautifulsoup4。

库准备好后,就可以开始爬虫之旅了。先随便选择一篇文章,点击进去,看看网页的情况。单个文章的网页的Request Method(请求方法)一般都是get。如果不确定,可以点击"Network",然后刷新页面,在左侧"Name"栏选第一个文件,然后再选"Headers"查看"Request Method"。由于请求方法是get,所以我们用requests获取链接信息的时候就要用get。将获取到的链接信息传递给wb_data变量,然后调用BeautifulSoup进行解析。此处,我们传入BeautifulSoup中的参数是wb_data.content,表示是二进制数据。还有一种是wb_data.text,表示是Unicode型的数据。由于使用.text,soup变量里的中文显示为乱码,所以此处使用.content。最后显示soup,就能看到这个网页里的信息。我们需要的文章标题和内容都在里面。

d8b9786894866d670ee3373ba505a3bc.png

import requests
from bs4 import BeautifulSoup

url = 'http://www.bicpa.org.cn/dtzj/zxgg/B15903912099325.html'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.content)
soup

1247e69c5db58c6d0142233e0c020029.png

由于只想要标题和正文,所以直接在标题上点右键,选择“检查”(此处用谷歌Chrome浏览器)。浏览器右边出现如下窗口。可见标题对应的class为headword。因此,可以在soup中使用select方法,传入.headword获取这个class里的信息("."就表示按"class"选择)。我们可以看到标题连带一些语句信息就提取出来并存入了一个列表,这个列表中只有1个元素。

14f084b40a1db53991332860d0bf9e65.png

soup.select('.headword')
>>
[class="headword" colspan="2" height="40"> 北京注册会计师协会专业技术委员会专家提示〔2020〕第3号——对新金融准则下减值准备的关注  td>,
 <td class="headword" colspan="2" height="40"> td>]

然后使用.text方法将这个列表中的文本提取出来,并用strip()去掉首尾的空格,存到title变量。显示一下,就得到完整的标题。

#获取文章标题
title = soup.select('.headword')[0].text.strip()
title
>>
'北京注册会计师协会专业技术委员会专家提示〔2020〕第3号——对新金融准则下减值准备的关注'

类似的方法,可以获取到正文文本。通过“检查”正文文本,发现正文位于class = MsoNormal下面。因此使用soup.select(".MsoNormal")按class选取,其中的"."就表示class。正文内容存到列表content,要提取其文本内容,需要遍历这个列表,然后分别按文本提取。还有一部分文章的正文位于id 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值