原标题:用什么Phthon, Excel也可以网抓多页表格
最近python非常的火,动不动就秒杀excel,特别是从网上抓取数据十分吸人眼球。其实,Excel中的power query功能也可以网抓,甚至多页表格。兰色今天就带大家一起试上一试。
下图所示是Excel精英培训论坛的一个答疑交流版块。我们要导出前10页贴子信息到excel中。
操作步骤:
1、分析网址中和页数有关的数字
通过手工翻页可以看出,网址最后一个数字正是和网页数相关的
http://www.excelpx.com/forum-38-2.html
2、导入网页
数据(power query) - 自网站 - 粘贴网址并点高级 - 把网址最后的剪切并粘到下面的文本框中,然后点击确定按钮
在新窗口中选取 table 1,然后点击右下的【 转换数据】按钮,即可把网页的第2页的贴子加载到power query编辑器中。
3、添加变量,制作自定义函数
在power query编辑中,点击【高级编辑器】
在代码最前添加一行代码,声明变量
(n as number) as table=>
然后把""修改为
&(n) & ".html"
修改后效果如下图所示:
点击【完成】后会出现一个新的界面,你输入数字即可获取该页的数据。
以上输入数字的查询只是为了测试,测试后可以删除,只留fx table 1
4、添加空查询
在左侧查询处单击右键 - 新建查询 - 其他源 - 空查询
在编辑栏中输入{1..10}并完成。
注:10是要导入的网页总页数,根据需要设置
再点左上按钮【到表】,弹出窗口默认并点确定
5、调用自定义函数生成查询
添加列- 调用自定义函数- 选取 table 1- 遇到隐私提示点 继续、忽略..,接下来会生成两列的表格。
点击第二列右端的安钮,展开数据表,就会生成所有网页中1~10页的贴子列表。
6、导入到Excel表格中
文件 - 【关闭并上载】( 点【关闭并上载至 】则可以选择导入位置 )后,所有1~10的网页数据已全部导入到Excel表格中。
完工!
兰色说:网上多页表格导入步骤很多,也很难找到如本文这么详细步骤的教程,同学们一定要收藏起来备用。如果觉得好用,帮兰色分享出去让更多需要的人看到。返回搜狐,查看更多
责任编辑: