python里怎么复制链接_python爬虫如何处理.js链接？

最新推荐文章于 2021-02-18 21:53:11 发布

沐风牧夜

最新推荐文章于 2021-02-18 21:53:11 发布

阅读量202

点赞数

文章标签： python里怎么复制链接

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29109261/article/details/113519646

版权

看你问题写的挺详细，值得表扬～时间有点晚了，我简单提示一下你。实际上这个问题很简单，甚至简单到不需要编程就可以爬下来。

我们先说沿着你的这种方法怎么继续做。第二个js文件显示乱码是因为浏览器默认的编码与文件编码不匹配，你在显示js内容的那个网页下ctrl+s把文件保存下来，然后使用sublime等编辑器，用utf-8编码格式打开。这时候乱码显示正常了，但是文件是经过混淆的。你可以随便找一个在线JS格式化网站，把代码格式化一下再重新存下来，这样看着清晰。

然后由于这里是js文件，而且是混淆过的，肯定不能用BeautifulSoup去查找字段。我们观察一下name上下文的规律，发现包含它所在字典的列表是一组一组的，前面是一个整数、一个空格、一个冒号再一个空格，然后就是列表。我们有正则表达式：

[0-9] : \[[^\]]*

可以看到所有列表组都被选中

我们将它们单独复制出来，然后再观察规律，使用以下正则表达式：

name: "[^"]+"

接下来我不说你也应该会了。这个手动查找的过程可以用Python的re库实现，需要记住的重要思想就是，复杂情况下的正则匹配是分阶段的，不是一上来就能匹配到最终结果。

然后包含名字的元素是可以找到的呀。你只需要在名字上右键->检查，就能自动跳到它的源码处

既然我们都能找到它的源码了，直接利用JQuery选择器在控制台就可以得到结果。首先引入JQuery

var jquery = document.createElement('script');

jquery.src = 'https://code.jquery.com/jquery-3.3.1.min.js';

document.getElementsByTagName('head')[0].appendChild(jquery);

然后使用选择器选中含有名字的元素，使用each遍历，将他们输出

$(".power-up-list-wrap .list ul li .name").each(function(){console.log($(this).text());});

最后，我们如果真的在源码中找不到要的内容，一般去分析网络流量包。如下图所示，可以看到这里的response是一个json格式，里面包含了我们要的字段name，虽然是unicode编码了的

你再随便找个在线unicode编解码网站，把名字放进去解码就好了。

以上说的所有的步骤，都可以用Python实现。你需要熟练掌握正则表达式，掌握HTTP协议，掌握HTML/CSS/Javascript语言，然后对各种类型的编码的样子比较熟悉，比如base64码有很多=，unicode码以\u开头等等。你可以先试试，有什么问题再来找我～

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python里怎么复制链接_python爬虫如何处理.js链接？

看你问题写的挺详细，值得表扬～时间有点晚了，我简单提示一下你。实际上这个问题很简单，甚至简单到不需要编程就可以爬下来。我们先说沿着你的这种方法怎么继续做。第二个js文件显示乱码是因为浏览器默认的编码与文件编码不匹配，你在显示js内容的那个网页下ctrl+s把文件保存下来，然后使用sublime等编辑器，用utf-8编码格式打开。这时候乱码显示正常了，但是文件是经过混淆的。你可以随便找一个在线JS...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。