抓取腾讯视频时碰到的ajax技术(1)
ps:本人小白,故本文参考多种视频,但因为是白嫖的,所以不知道是哪的。如有侵权,会立刻删除。
ps:题外话,摁F12后不要一点点去翻找你要的东西,右键点检查直接定位到你要的位置。嗯,我是傻逼。
ps:这是一个绝对的大佬和我说的一句话,原画:除非特别肯定输入的正确性, 一般都不适合把几个函数串起来,虽然看着比较酷。 连续写函数不容易查错和做error handling.
这就是软件工程的问题了, 特别是(大)数据处理, 当数据量增大,什么想不到的问题都有可能, 积累多了就有感觉了。
ajax介绍
异步的js和json(传统使用xml,所以叫ajax,现在应该叫ajaj)。ajax可以使网页实现异步更新,这意味着可以在不重新加载整个网页的情况下,对网页的部分进行更新(比如此次的腾讯视频评论区中的加载更多)
偷偷的向服务器的另外一个接口发送请求,然后服务器再响应(以josn的形式返回给你)把josn数据放到这些html代码当中。
通过ajax不会在查看网页源代码中显示,那么我们如何获取到想要的全部信息呢(比如,小学就玩fps--cf的我,想看看这部新剧在腾讯评价如何)
获取ajax数据的方式
1.直接分析ajax调用的接口,然后通过代码请求这个接口
如:Request URL: https://video.coral.qq.com/varticle/5584797631/comment/v2?callback=_varticle5584797631commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6691945167361421880&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1595484222553
然后后要对网页进行分析
直接请求,也不要用解析,因为返回的是json数据,有json.load()的方法把它变成一个字典,变成字典的话更好去解析
但,分析接口有些小难,因为有些网站对这些参数进行加密,你不知道字符串代表着什么意思,需要一定js的功底
再比如,有道词典,你输入hello 他给翻译成你好,他会把要翻译的窗口内容发送给指定接口, 接口接收到数据后处理后给你返回,但分析有些难,所以我选择第二种。
2.Selenium+chromedriver的方式模拟浏览器行为获取数据,通过代码,操作浏览器
Selenium相当于一个机器人,模拟你去点击等等处理互联网的一些行为。
chromedriver是有个驱动Chrome浏览器的驱动程序,使用它才可以驱动浏览器
如何安装请看“https://www.cnblogs.com/lfri/p/10542797.html”(切记一定要解压,不要问我怎么知道的)
python代码能够自动的调用谷歌浏览或phantomjs无界面浏览器,控制其自动访问网站
底下的输出太长了,反正返回啦哈哈哈
哦对啦,这东西原本不是用来爬虫的,是用来自动化测试的,感兴趣的可以看看哦
selenium工作原理
利用浏览器原生的API,封装成一套更加面向对象的Selenium WebDriver API,直接操作浏览器页面里的元素,甚至操作浏览器本身(截屏,窗口大小,启动,关闭,安装插件,配置证书之类的)
webdriver本质是一个web-server(没错,它就相当于一个服务器),对外提供webapi,其中封装了浏览器的各种功能,不同的浏览器使用各自不同的webdriver,所以你要用哪款浏览器,你就要获取对应浏览器的driver。可以把它理解成一个中转站
实际上是通过js来操作代码的
selenium的简单使用
chromedriver已经添加环境变量
driver = webdriver.Chrome()
控制浏览器访问url地址
driver.get(“url”)
selenium提取数据
在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法
driver.page_source
当前标签页浏览器渲染之后的网页源代码(显示源码)driver.current_url
当前标签页的url(显示相应对应的url)driver.close()
关闭当前标签页,如果只有一个标签页则关闭整个浏览器driver.quit()
关闭浏览器driver.forward()
页面前进driver.back()
页面后退
这两个都是在一个标签下操作,相当于左上角的两个箭头driver.screen_shot(img_name)
页面截图,记得()内要加"",因为是你图片的名字。这个用法除了截图外,还可用以验证码截图,然后分析
当然,如果你版本有些高的话会和我一样
‘WebDriver’ object has no attribute ‘screen_shot’
driver对象定位标签元素获取标签对象的方法
find_element_by_id (返回一个元素)
find_element(s)_by_class_name (根据类名获取元素列表)
find_element(s)_by_name (根据标签的name属性值返回包含标签对象元素的列表)
find_element(s)_by_xpath (返回一个包含元素的列表)
find_element(s)_by_link_text (根据连接文本获取元素列表)
find_element(s)_by_partial_link_text (根据链接包含的文本获取元素列表)
find_element(s)_by_tag_name (根据标签名获取元素列表)
此法慎用,因为这个只会返回第一个。所以说定位要么是唯一标签,要么是第一个。
find_element(s)_by_css_selector (根据css选择器来获取元素列表)
注意:
xpath(无敌)和css是万金油
- find_element和find_elements的区别:
- 多了个s就返回列表,没有s就返回匹配到的第一个标签对象
- find_element匹配不到就抛出异常,find_elements匹配不到就返回空列表
- by_link_text和by_partial_link_tex的区别:全部文本和包含某个文本
- 以上函数的使用方法
driver.find_element_by_id('id_str')
然后点击右键,copy,copy selector,放到find_element(s)_by_xpath(这里) 即可。
此处li控制着评论是哪一条,如第一条,那就是li[1],在这里只需要删掉[1],即可获得全部li
标签对象提取文本内容和属性值
使用.text 和 .get_attribute
返回的内容,所有的数字变成了奇形怪状的中文,有解决方法的麻烦评论区教教我。
find_element仅仅能够获取元素,不能够直接获取其中的数据,如果需要获取数据需要使用以下方法
对元素执行点击操作element.click()
- 对定位到的标签对象进行点击操作
向输入框输入数据element.send_keys(data)
- 对定位到的标签对象输入数据
获取文本element.text
- 通过定位获取的标签对象的
text
属性,获取文本内容
获取属性值element.get_attribute("属性名")
- 通过定位获取的标签对象的
get_attribute
函数,传入属性名,来获取属性的值