由于业务原因,需要经常关注“注册会计师协会”网站“最新公告”栏目里的“委员会专家提示”相关文章。不想每次进网站一个一个地点击,然后复制到word文件。如果能一次批量爬取,并存到word文件就好啦。
此处用到两个库,“requests”和“beautifulsoup”。“requests”用于发送HTTP请求,并获取网页的内容。“beautifulsoup”用于解析获取到的网页内容,非常简单又方便地为用户提供需要抓取的数据,比如文字内容,图片链接等。若未安装,则运行cmd,输入pip install requests及pip install beautifulsoup4。
库准备好后,就可以开始爬虫之旅了。先随便选择一篇文章,点击进去,看看网页的情况。单个文章的网页的Request Method(请求方法)一般都是get。如果不确定,可以点击"Network",然后刷新页面,在左侧"Name"栏选第一个文件,然后再选"Headers"查看"Request Method"。由于请求方法是get,所以我们用requests获取链接信息的时候就要用get。将获取到的链接信息传递给wb_data变量,然后调用BeautifulSoup进行解析。此处,我们传入BeautifulSoup中的参数是wb_data.content,表示是二进制数据。还有一种是wb_data.text,表示是Unicode型的数据。由于使用.text,soup变量里的中文显示为乱码,所以此处使用.content。最后显示soup,就能看到这个网页里的信息。我们需要的文章标题和内容都在里面。
import requests
from bs4 import BeautifulSoup
url = 'http://www.bicpa.org.cn/dtzj/zxgg/B15903912099325.html'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.content)
soup
由于只想要标题和正文,所以直接在标题上点右键,选择“检查”(此处用谷歌Chrome浏览器)。浏览器右边出现如下窗口。可见标题对应的class为headword。因此,可以在soup中使用select方法,传入.headword获取这个class里的信息("."就表示按"class"选择)。我们可以看到标题连带一些语句信息就提取出来并存入了一个列表,这个列表中只有1个元素。
soup.select('.headword')
>>
[class="headword" colspan="2" height="40"> 北京注册会计师协会专业技术委员会专家提示〔2020〕第3号——对新金融准则下减值准备的关注 td>,
<td class="headword" colspan="2" height="40"> td>]
然后使用.text方法将这个列表中的文本提取出来,并用strip()去掉首尾的空格,存到title变量。显示一下,就得到完整的标题。
#获取文章标题
title = soup.select('.headword')[0].text.strip()
title
>>
'北京注册会计师协会专业技术委员会专家提示〔2020〕第3号——对新金融准则下减值准备的关注'
类似的方法,可以获取到正文文本。通过“检查”正文文本,发现正文位于class = MsoNormal下面。因此使用soup.select(".MsoNormal")按class选取,其中的"."就表示class。正文内容存到列表content,要提取其文本内容,需要遍历这个列表,然后分别按文本提取。还有一部分文章的正文位于id