抓取腾讯视频时碰到的ajax技术(1)(采用selenium,并对其进行详细展开)

抓取腾讯视频时碰到的ajax技术(1)

ps:本人小白,故本文参考多种视频,但因为是白嫖的,所以不知道是哪的。如有侵权,会立刻删除。
ps:题外话,摁F12后不要一点点去翻找你要的东西,右键点检查直接定位到你要的位置。嗯,我是傻逼。

ps:这是一个绝对的大佬和我说的一句话,原画:除非特别肯定输入的正确性, 一般都不适合把几个函数串起来,虽然看着比较酷。 连续写函数不容易查错和做error handling.
这就是软件工程的问题了, 特别是(大)数据处理, 当数据量增大,什么想不到的问题都有可能, 积累多了就有感觉了。

ajax介绍

异步的js和json(传统使用xml,所以叫ajax,现在应该叫ajaj)。ajax可以使网页实现异步更新,这意味着可以在不重新加载整个网页的情况下,对网页的部分进行更新(比如此次的腾讯视频评论区中的加载更多)

偷偷的向服务器的另外一个接口发送请求,然后服务器再响应(以josn的形式返回给你)把josn数据放到这些html代码当中。
	
	通过ajax不会在查看网页源代码中显示,那么我们如何获取到想要的全部信息呢(比如,小学就玩fps--cf的我,想看看这部新剧在腾讯评价如何)

获取ajax数据的方式

1.直接分析ajax调用的接口,然后通过代码请求这个接口
如:Request URL: https://video.coral.qq.com/varticle/5584797631/comment/v2?callback=_varticle5584797631commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6691945167361421880&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1595484222553
然后后要对网页进行分析

在这里插入图片描述
直接请求,也不要用解析,因为返回的是json数据,有json.load()的方法把它变成一个字典,变成字典的话更好去解析

但,分析接口有些小难,因为有些网站对这些参数进行加密,你不知道字符串代表着什么意思,需要一定js的功底

再比如,有道词典,你输入hello 他给翻译成你好,他会把要翻译的窗口内容发送给指定接口,	接口接收到数据后处理后给你返回,但分析有些难,所以我选择第二种。

2.Selenium+chromedriver的方式模拟浏览器行为获取数据,通过代码,操作浏览器
Selenium相当于一个机器人,模拟你去点击等等处理互联网的一些行为。
chromedriver是有个驱动Chrome浏览器的驱动程序,使用它才可以驱动浏览器
如何安装请看“https://www.cnblogs.com/lfri/p/10542797.html”(切记一定要解压,不要问我怎么知道的)
python代码能够自动的调用谷歌浏览或phantomjs无界面浏览器,控制其自动访问网站

在这里插入图片描述
底下的输出太长了,反正返回啦哈哈哈
哦对啦,这东西原本不是用来爬虫的,是用来自动化测试的,感兴趣的可以看看哦
在这里插入图片描述

selenium工作原理

利用浏览器原生的API,封装成一套更加面向对象的Selenium WebDriver API,直接操作浏览器页面里的元素,甚至操作浏览器本身(截屏,窗口大小,启动,关闭,安装插件,配置证书之类的)

webdriver本质是一个web-server(没错,它就相当于一个服务器),对外提供webapi,其中封装了浏览器的各种功能,不同的浏览器使用各自不同的webdriver,所以你要用哪款浏览器,你就要获取对应浏览器的driver。可以把它理解成一个中转站
在这里插入图片描述
实际上是通过js来操作代码的

selenium的简单使用

chromedriver已经添加环境变量
driver = webdriver.Chrome()

控制浏览器访问url地址
driver.get(“url”)

selenium提取数据

在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法

  1. driver.page_source 当前标签页浏览器渲染之后的网页源代码(显示源码)
  2. driver.current_url 当前标签页的url(显示相应对应的url)
  3. driver.close() 关闭当前标签页,如果只有一个标签页则关闭整个浏览器
  4. driver.quit() 关闭浏览器
  5. driver.forward() 页面前进
  6. driver.back() 页面后退
    这两个都是在一个标签下操作,相当于左上角的两个箭头
  7. driver.screen_shot(img_name) 页面截图,记得()内要加"",因为是你图片的名字。这个用法除了截图外,还可用以验证码截图,然后分析
    当然,如果你版本有些高的话会和我一样
    ‘WebDriver’ object has no attribute ‘screen_shot’

driver对象定位标签元素获取标签对象的方法

find_element_by_id (返回一个元素)
find_element(s)_by_class_name (根据类名获取元素列表)
find_element(s)_by_name (根据标签的name属性值返回包含标签对象元素的列表)
find_element(s)_by_xpath (返回一个包含元素的列表)
find_element(s)_by_link_text (根据连接文本获取元素列表)
find_element(s)_by_partial_link_text (根据链接包含的文本获取元素列表)
find_element(s)_by_tag_name (根据标签名获取元素列表)
此法慎用,因为这个只会返回第一个。所以说定位要么是唯一标签,要么是第一个。
find_element(s)_by_css_selector (根据css选择器来获取元素列表)

注意:
xpath(无敌)和css是万金油

  • find_element和find_elements的区别:
    • 多了个s就返回列表,没有s就返回匹配到的第一个标签对象
    • find_element匹配不到就抛出异常,find_elements匹配不到就返回空列表
  • by_link_text和by_partial_link_tex的区别:全部文本和包含某个文本
  • 以上函数的使用方法
    • driver.find_element_by_id('id_str')
      在这里插入图片描述
      然后点击右键,copy,copy selector,放到find_element(s)_by_xpath(这里) 即可。
      此处li控制着评论是哪一条,如第一条,那就是li[1],在这里只需要删掉[1],即可获得全部li
      在这里插入图片描述

标签对象提取文本内容和属性值

使用.text 和 .get_attribute
在这里插入图片描述
返回的内容,所有的数字变成了奇形怪状的中文,有解决方法的麻烦评论区教教我。

find_element仅仅能够获取元素,不能够直接获取其中的数据,如果需要获取数据需要使用以下方法

对元素执行点击操作element.click()

  • 对定位到的标签对象进行点击操作

向输入框输入数据element.send_keys(data)

  • 对定位到的标签对象输入数据

获取文本element.text

  • 通过定位获取的标签对象的text属性,获取文本内容

获取属性值element.get_attribute("属性名")

  • 通过定位获取的标签对象的get_attribute函数,传入属性名,来获取属性的值
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值