在这个大数据时代,有时人们面对大量的数据难以下手,必须要从中提取出自己想要的数据,并进行分析,通过数据可视化(比如根据文本生成词云图)分析某一话题的发展趋势。
在一些比赛中也需要用到数据爬取(或者说网络爬虫)与分析,例如市场调查大赛“正大杯”则要用到词云图。
我们日常浏览的各个网页都有相对应的网址,在互联网上都有相应的位置,我们用URL来标识他们的位置,如果我们需要用到某个网址的数据,仅需要找到其URL再进行提取即可。例如,我要对政府工作报告的内容进行提取,则先需找到其url。在此之前我们需要引用第三方库requests和bs4(BeautifulSoup),如果没有这两个库可以按照以下方式搜索添加:
bs4库以及后续各种第三方库的添加方式同理,之后便开始爬取网页,代码如下:
#Step1:引入第三方库
import requests
from bs4 import BeautifulSoup
#Step2:爬取网页HTML文件
url='http://www.gov.cn/zhuanti/2021lhzfgzbg/index.htm'
#这里把政府工作报告的绝对路径以字符串形式赋值给url
response=requests.get(url)
#用get方法获取服务器(网页)的响应并生成response对象
html=response.content.decode('utf-8'