抓取腾讯视频时碰到的ajax技术（1）（采用selenium，并对其进行详细展开）

最新推荐文章于 2022-11-01 13:19:50 发布

蓦然回首却已人去楼空

最新推荐文章于 2022-11-01 13:19:50 发布

阅读量547

点赞数 1

分类专栏： python 文章标签： python selenium

本文链接：https://blog.csdn.net/jsdoulaoula/article/details/107543773

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

抓取腾讯视频时碰到的ajax技术（1）

ps：本人小白，故本文参考多种视频，但因为是白嫖的，所以不知道是哪的。如有侵权，会立刻删除。
ps：题外话，摁F12后不要一点点去翻找你要的东西，右键点检查直接定位到你要的位置。嗯，我是傻逼。

ps：这是一个绝对的大佬和我说的一句话，原画：除非特别肯定输入的正确性，一般都不适合把几个函数串起来，虽然看着比较酷。连续写函数不容易查错和做error handling.
这就是软件工程的问题了，特别是（大）数据处理，当数据量增大，什么想不到的问题都有可能，积累多了就有感觉了。

ajax介绍

异步的js和json（传统使用xml，所以叫ajax，现在应该叫ajaj）。ajax可以使网页实现异步更新，这意味着可以在不重新加载整个网页的情况下，对网页的部分进行更新（比如此次的腾讯视频评论区中的加载更多）

偷偷的向服务器的另外一个接口发送请求，然后服务器再响应（以josn的形式返回给你）把josn数据放到这些html代码当中。
	
	通过ajax不会在查看网页源代码中显示，那么我们如何获取到想要的全部信息呢（比如，小学就玩fps--cf的我，想看看这部新剧在腾讯评价如何）

获取ajax数据的方式

1.直接分析ajax调用的接口，然后通过代码请求这个接口
如：Request URL: https://video.coral.qq.com/varticle/5584797631/comment/v2?callback=_varticle5584797631commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6691945167361421880&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1595484222553
然后后要对网页进行分析

在这里插入图片描述
直接请求，也不要用解析，因为返回的是json数据，有json.load()的方法把它变成一个字典，变成字典的话更好去解析

但，分析接口有些小难，因为有些网站对这些参数进行加密，你不知道字符串代表着什么意思，需要一定js的功底

再比如，有道词典，你输入hello 他给翻译成你好，他会把要翻译的窗口内容发送给指定接口，	接口接收到数据后处理后给你返回，但分析有些难，所以我选择第二种。

2.Selenium+chromedriver的方式模拟浏览器行为获取数据，通过代码，操作浏览器
Selenium相当于一个机器人，模拟你去点击等等处理互联网的一些行为。
chromedriver是有个驱动Chrome浏览器的驱动程序，使用它才可以驱动浏览器
如何安装请看“https://www.cnblogs.com/lfri/p/10542797.html”（切记一定要解压，不要问我怎么知道的）
python代码能够自动的调用谷歌浏览或phantomjs无界面浏览器，控制其自动访问网站

在这里插入图片描述
底下的输出太长了，反正返回啦哈哈哈
哦对啦，这东西原本不是用来爬虫的，是用来自动化测试的，感兴趣的可以看看哦

selenium工作原理

利用浏览器原生的API，封装成一套更加面向对象的Selenium WebDriver API，直接操作浏览器页面里的元素，甚至操作浏览器本身（截屏，窗口大小，启动，关闭，安装插件，配置证书之类的）

webdriver本质是一个web-server（没错，它就相当于一个服务器），对外提供webapi，其中封装了浏览器的各种功能，不同的浏览器使用各自不同的webdriver，所以你要用哪款浏览器，你就要获取对应浏览器的driver。可以把它理解成一个中转站
在这里插入图片描述
实际上是通过js来操作代码的

selenium的简单使用

chromedriver已经添加环境变量
driver = webdriver.Chrome()

控制浏览器访问url地址
driver.get(“url”)

selenium提取数据

在使用selenium过程中，实例化driver对象后，driver对象有一些常用的属性和方法

driver.page_source 当前标签页浏览器渲染之后的网页源代码（显示源码）
driver.current_url 当前标签页的url（显示相应对应的url）
driver.close() 关闭当前标签页，如果只有一个标签页则关闭整个浏览器
driver.quit() 关闭浏览器
driver.forward() 页面前进
driver.back() 页面后退
这两个都是在一个标签下操作，相当于左上角的两个箭头
driver.screen_shot(img_name) 页面截图，记得（）内要加""，因为是你图片的名字。这个用法除了截图外，还可用以验证码截图，然后分析
当然，如果你版本有些高的话会和我一样
‘WebDriver’ object has no attribute ‘screen_shot’

driver对象定位标签元素获取标签对象的方法

find_element_by_id (返回一个元素)
find_element(s)_by_class_name (根据类名获取元素列表)
find_element(s)_by_name (根据标签的name属性值返回包含标签对象元素的列表)
find_element(s)_by_xpath (返回一个包含元素的列表)
find_element(s)_by_link_text (根据连接文本获取元素列表)
find_element(s)_by_partial_link_text (根据链接包含的文本获取元素列表)
find_element(s)_by_tag_name (根据标签名获取元素列表)
此法慎用，因为这个只会返回第一个。所以说定位要么是唯一标签，要么是第一个。
find_element(s)_by_css_selector (根据css选择器来获取元素列表)

注意：
xpath（无敌）和css是万金油

find_element和find_elements的区别：
- 多了个s就返回列表，没有s就返回匹配到的第一个标签对象
- find_element匹配不到就抛出异常，find_elements匹配不到就返回空列表
by_link_text和by_partial_link_tex的区别：全部文本和包含某个文本
以上函数的使用方法
- driver.find_element_by_id('id_str')
  
  然后点击右键，copy，copy selector，放到find_element(s)_by_xpath（这里）即可。
  此处li控制着评论是哪一条，如第一条，那就是li[1]，在这里只需要删掉[1]，即可获得全部li

标签对象提取文本内容和属性值

使用.text 和 .get_attribute
在这里插入图片描述
返回的内容，所有的数字变成了奇形怪状的中文，有解决方法的麻烦评论区教教我。

find_element仅仅能够获取元素，不能够直接获取其中的数据，如果需要获取数据需要使用以下方法

对元素执行点击操作element.click()

对定位到的标签对象进行点击操作

向输入框输入数据element.send_keys(data)

对定位到的标签对象输入数据

获取文本element.text

通过定位获取的标签对象的text属性，获取文本内容

获取属性值element.get_attribute("属性名")

通过定位获取的标签对象的get_attribute函数，传入属性名，来获取属性的值

蓦然回首却已人去楼空

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
抓取腾讯视频时碰到的ajax技术（1）（采用selenium，并对其进行详细展开）

抓取腾讯视频时碰到的ajax技术除非特别肯定输入的正确性，一般都不适合把几个函数串起来，虽然看着比较酷。连续写函数不容易查错和做error handling.这就是软件工程的问题了，特别是（大）数据处理，当数据量增大，什么想不到的问题都有可能，积累多了就有感觉了。ajax介绍异步的js和json（传统使用xml，所以叫ajax，现在应该叫ajaj）。ajax可以使网页实现异步更新，这意味着可以在不重新加载整个网页的情况下，对网页的部分进行更新（比如此次的腾讯视频评论区中的加载更多）偷
复制链接

扫一扫