Python之网络爬虫(selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密)

一、selenium爬取动态网页

1、动态网页认知

  • 爬虫其实就是在模仿浏览器的行为
  • 应对要多次数据的交互模拟的网站,我们有时会遇到像淘宝这样的大型网站,对数据版权看得特别重的,它们的网站有大量的工程师和技术人员去维护,它们也可能在技术手段上采用多次交互数据包的方式来完成网站服务器与用户浏览器之间的交互。如果此时还采用传统的分析数据包的方式会比较的复杂,难度较高。
  • 对于这类网页的爬取,我们的解决方案是: Selenium + Chrome驱动。

2、工具的介绍
url编码与解码在线测试工具:http://tool.chinaz.com/tools/urlencode.aspx
在线正则表达式测试工具:https://tool.oschina.net/regex

3、Selenium的认识
一个Web自动化测试工具,最初是为了网站自动化测试而开发的;我们玩游戏有按键精灵; Selenium 也可以做类似的事情,但是它是在浏览器中做这样的事情。
安装:pip install selenium
然后就可以在Python中from selenium import webdriver来测试是否装好。

4、爬虫方案的选择
对Selenium + Chrome驱动这个方案,从理论上来说,只要是用户能够访问的数据,都可以抓取到,但是,从时间、空间、效率上来说,这个方案有些缺陷,尤其是时间方面,可能需要多次尝试。
因此,如果能够使用的get和post的地方,最好就不用selenium

二、爬虫案例分析

1、获取id或者xpath实现登陆

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time
browser = webdriver.Chrome()  # 设置Chrome为selenium的浏览器驱动

# 打开浏览器实现登陆
def openbrowser():
    # global browser
    url = "http://index.baidu.com/"  # 百度指数的网站
    browser.get(url)
    # 点击网页的登录按钮:在对应的元素那里右击检查(或审查元素),再右击Copy,最后Copy Xpath            
    browser.find_element_by_xpath('//*[@id="home"]/div[1]/div[2]/div[1]/div[5]/span/span').click()
    time.sleep(3)
    # 自动化操作是很快的,但是操作再快,网络可能跟不上,可能页面还没加载完全,因此需要设定等待时间

    # 浏览器登陆id测试
    # 1)在用户名输入框点检查,就能找到对应的id为TANGRAM__PSP_4__userName
    # 然后在console控制台输入:document.getElementById("TANGRAM__PSP_4__userName").value = "
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鸿蒙Next

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值