python爬虫学习day2-2.遇到js时发生的问题

最新推荐文章于 2021-10-22 17:00:44 发布

DopL

最新推荐文章于 2021-10-22 17:00:44 发布

阅读量215

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/qq_37268153/article/details/81065027

版权

python爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

学习视频链接：点击打开链接

笔记部分：

爬到评论数却无法获取到评论数量时，提出猜测是经过js增添上去，所以需要在页面中检查找出提供js的network js链接地址

（即提供js的公网http：//链接）

取参考：

然后代码取出相关内容：

-------------------分割线---------------------------------

取出链接中指定位置的值

#取出链接中指定位置的值
newsurl = 'http://comment5.news.sina.com.cn/comment/skin/cos-ai9885256.shtml'


newsid = newsurl.split('/')[-1].rstrip('.shtml').lstrip('cos-ai')
print(newsid)

运行结果为：9885256

理解：

newsid = newsurl

取出链接中指定位置的值之二：（使用正规表达法）

总结：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DopL

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

当Python爬虫遇到JS加密

weixin_41540084的博客

09-08

4928

我们在做python爬虫的时候经常会遇到许多的反爬措施，js加密就是其中一种。破解js加密的方法也有很多种： 1.直接驱动浏览器抓取数据，无视js加密。 2.找到本地加密的js代码，使用python的相关库直接运行js代码。 3.找到本地加密的js代码，理清加密逻辑，然后用python代码来模仿js代码的流程，生成我们想要的加密的数据。这里我们简单介绍一下第三种，也是最难的一种。目标网站：h...

python爬虫遇到的一些杂七杂八的问题（2）

知易行难的博客

12-15

1239

1.python计算float之后如何精简小数位数，并且转成str类型 a=5.123456 round(a,2) a=5.12 但是会发生奇怪的事，就是str（round（a，2））*100之后得到的是5.050000000000001,目前还没找到合适的解决方法 2.寻找某个目录下的所有文件 file_dir = "F:/123" for root, dirs, files in os.walk(file_dir, topdown=False): print(root) ...

参与评论您还未登录，请先登录后发表或查看评论

爬虫中遇到的js反爬技术

学习python

02-26

5535

现在的网页代码搞得越来越复杂，除了使用vue等前端框架让开发变得容易外，主要就是为了防爬虫，所以写爬虫下的功夫就越来越多。攻和防在互相厮杀中结下孽缘却又相互提升着彼此。本文就JS反爬虫的策略展开讨论，看看这中间都有着怎样的方法破解。一、JS写cookie 我们要写爬虫抓某个网页里面的数据，无非是打开网页，看看源代码，如果html里面有我们要的数据，那就简单了。用requests...

免费代理爬虫遭遇JavaScript

CaiNiaoWuZui的专栏

10-28

1622

爬虫过程经常会遇到JavaScript反爬虫，如果JavaScript代码可读性强，那么写出相应的python代码，效率是最高的。如果JavaScript代码可读性非常差，也可以考虑使用基于selenium的phantomjs。本文采用的是第一种。

python爬虫遇到js加密_当爬虫遇到js加密

weixin_39716043的博客

11-30

552

目标网站：http://tool.liumingye.cn/music/?type=qq&name=%E4%BD%A0%E5%A5%BD（测试）在谷歌浏览器输入该网址之后，打开F12开发者工具，访问该链接，很容易在里面找到name为'a8ba90546fd6dc43e933a46c80d9e5df'的请求，这条请求内容就是我们想要的。观察这条请求的url：http://lab.liumingye....

Python爬虫js处理

ZHH_Love123的博客

03-31

1093

一、jquery发送ajax请求格式 """ 形式：$.ajax({name:val, name:val,...}); 可选字段： 1）url：链接地址，字符串表示 2）data：需发送到服务器的数据，GET与POST都可以，格式为{A: '...', B: '...'} 3）type："POST" 或 "GET"，请求类型 4）timeout：请求超时时间，单位为毫秒，数值表示 5）cach...

python 学习

挚友的博客

10-22

7911

文章目录一、导入模块OS，模块中方法的使用二、使用步骤1.文件名遍历2.一个文件复制到另一个目录3.一个目录复制到另一个目录一、导入模块OS，模块中方法的使用导入模块 import os 查看当前操作系统（Window 是 nt；Linux是posix） os.name 实例 print(os.name ) 获取当前目录就和 Linux中的 pwd 一样 os.getcwd() 实例 print(os.getcwd() ) 获取当前目录所有文件（等于dir ls） os.list

python-Day13.rar

04-09

在"python-Day13.rar"这个压缩包中，我们很可能找到了一个关于Python爬虫的教程或项目，专注于第13天的学习内容。下面将详细讨论Python爬虫的基本概念、常用库、以及可能涉及的技术点。 1. **Python爬虫基础**： -...

2024.4.15 Python爬虫复习day03代码

04-14

本复习资料主要针对Python爬虫的进阶学习，旨在帮助用户巩固和提升爬虫技能。今天我们将深入探讨2024年4月15日的Python爬虫复习课程中的核心知识点。一、Python爬虫基础 1. 请求与响应：Python中的`requests`库是...

python 爬虫处理 js 相关问题

wuleixxh的专栏

03-09

646

为了使python能够处理js代码首先安装相关库执行JS的类库：execjs，PyV8，selenium，node 这里主要讲一下execjs，一个比较好用且容易上手的类库（支持py2，与py3），支持 JS runtime。官网：https://pypi.org/project/PyExecJS/ （一）安装： pip install PyExecJS （二）运行时环境 ex...

Python，写爬虫时遇到的问题笔记（一）

一个努力飞行的菜鸟

09-08

436

python3 错误 Err

Python 爬虫执行JavaScript

Xy-Huang的博客

05-16

8281

欢迎加入学习交流QQ群：657341423 反爬虫技术一直是爬虫最难解决的问题，因为要开发者深入了解网站的反爬机制才能做出相应的解决方案。反爬虫技术之中，最为复杂的是加密和js混淆。两者都要分析网站的js代码，找出相应的加密算法和混淆方法。有时候一些脚本只能由js完成，遇到这类的爬虫，我们可以使用python执行js代码。 Python执行js代码的模块有PyExecJS 和 py...

对于爬虫遇到的JS渲染的问题的一些解决方法

weixin_40995588的博客

12-05

1998

对于爬虫遇到的一些关于JS渲染的解决方法: 1.动用动态技术 Selenium+PhantomJS或者其他的一些动态框架 2.Splash: 我没用过,所以不好评价 3.自己动用Google Chrome找寻请求,然后找出参数进行模拟. 比较好练手的就是http://www.dm5.com 推荐去看下这个.... 动用动态技术的...

2024.4.16 Python爬虫复习day04