Python数据爬取与可视化

在这个大数据时代,有时人们面对大量的数据难以下手,必须要从中提取出自己想要的数据,并进行分析,通过数据可视化(比如根据文本生成词云图)分析某一话题的发展趋势。

在一些比赛中也需要用到数据爬取(或者说网络爬虫)与分析,例如市场调查大赛“正大杯”则要用到词云图。

 

我们日常浏览的各个网页都有相对应的网址,在互联网上都有相应的位置,我们用URL来标识他们的位置,如果我们需要用到某个网址的数据,仅需要找到其URL再进行提取即可。例如,我要对政府工作报告的内容进行提取,则先需找到其url。在此之前我们需要引用第三方库requests和bs4(BeautifulSoup),如果没有这两个库可以按照以下方式搜索添加:

bs4库以及后续各种第三方库的添加方式同理,之后便开始爬取网页,代码如下:

#Step1:引入第三方库
import requests
from bs4 import BeautifulSoup

#Step2:爬取网页HTML文件
url='http://www.gov.cn/zhuanti/2021lhzfgzbg/index.htm'
#这里把政府工作报告的绝对路径以字符串形式赋值给url
response=requests.get(url)
#用get方法获取服务器(网页)的响应并生成response对象
html=response.content.decode('utf-8'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值