python爬网站信息_爬取网页信息的小能手——微软PowerBI

爬取网页信息的小能手——微软PowerBI

2019-11-06 18:00:00

15点赞

67收藏

3评论

5dc26a28309608844.jpg_e680.jpg

5dc26a2886fb52191.jpg_e680.jpg“火箭君曾经介绍过使用Excel直接下载网页中数据,但是在实际使用中你会发现许多困难,比如说在本文介绍的案列中,你根本无法通过Excel抓取到网页中合适的信息,而微软旗下的另一款软件Power BI在这时候就显示出了无可比拟的优势。具体是什么,就让我们来看看文章吧!

什么是Power BI?

也许有的小伙伴对于此工具还比较陌生。根据微软官方的定义,PowerBI是这样一款产品:

5dc26a28c74997055.jpg_e680.jpg

Power BI 是软件服务、应用和连接器的集合,它们协同工作以将相关数据来源转换为连贯的视觉逼真的交互式见解。 无论用户的数据是简单的 Excel 电子表格,还是基于云和本地混合数据仓库的集合,Power BI 都可让用户轻松地连接到数据源,直观看到(或发现)重要内容,与任何所希望的人进行共享。

它是一种集成式的工具,提现了微软在企业端为企业数字化转型所做出的尝试。但是,天生的好工具也不只能局限于在企业业务场景,Power BI也可以为我们个人所用。

比如……

抓取豆瓣“最受关注图书榜”

5dc26a2914eb1655.jpg_e680.jpg

如果我们想要抓取豆瓣读书页面上(https://book.douban.com/)“最受关注图书榜”的相关信息:书名

评分

作者

……

这时我们就可以毫不犹豫得使用这个Power BI工具。

>>>Step 1

5dc26a2973da37612.jpg_e680.jpg

在Power BI的主界面中分别选中”获取数据“->”Web"。

>>>Step 2

5dc26a2a042645408.jpg_e680.jpg

在弹出的窗口中复制进豆瓣的地址(https://book.douban.com/),并确认

>>>Step 3

5dc26a2a567e7309.png_e680.jpg

这时候会再弹出一个导航器,选择“使用示例添加表”。

>>>Step 4

5dc26a2aa15599479.gif_e680.jpg

这时你能看到再次弹出的窗口分别由两部分组成:上部为浏览器,下部为类似Excel表格的界面。这时,你只要给到列的标题,并选择前1到2个需要抓取的数据内容,比如说“人生海海”和“皮肤的秘密”这两个书名,然后按回车。Power BI会自动帮你填充所有其他在网页中相同的元素类型。

以此类推可以完成评分,作者等内容的抓取。

按确认键结束内容抓取。

>>>Step 5

5dc26a2b790585366.jpg_e680.jpg

数据抓取加载完成后,我们就可以在数据视图中看到所有内容。

5dc26a2bd0d0d7652.jpg_e680.jpg

如果你说:“唔,我还是想用Excel来最终处理或者保存这些数据。”这当然也是没有问题的。只要在右侧的工具栏中,右键单击表格,在弹出的菜单中选择“复制表”。这样你就可以安安心心把这些数据存到Excel中去了。

你学会了吗?

未经授权,不得转载

the-end.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值