暑假学习 Python爬虫基础(4)

本文记录了作者在暑假期间学习Python爬虫的基础知识,并尝试爬取百度文库文章及手机软件的过程。在爬取百度文库时遇到点击继续阅读的分块覆盖问题,尚未解决;随后转向手机App爬取,按照博客教程抓取了英雄图片并补充了未完成的代码,但功能实现仍有待完善。
摘要由CSDN通过智能技术生成

学习的一些基础也完成的差不多了,下面就尽量自己来完成一下对百度文库文章的爬取,尽量自己自主完成

还有就是手机软件爬虫的实现

百度文库文章的爬取

手机端的反爬手段少一点,可以修改头部,让其实现手机端网页的访问

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
driver = webdriver.Chrome(chrome_options=options)
driver.get('https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html')

爬取百度文库的过程中,到了点击继续阅读的部分时,报错了,因为上面有一个分块,覆盖在其上面,导致其无法点击,在网上找了许多的东西都没有尝试成功,正是这样的过程才发现了很多自己的不足。所以说还是要多实践呀!问题一直没有得到解决,所以我一直就卡在了下面这一段,也对这个项目失去了一些兴趣,所以暂时先放一放。

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException

def search():
        options = webdriver.ChromeOptions()
        options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
        driver = webdriver.Chrome(chrome_options=options)
        Wait = WebDriverWait(driver,10)
        driver.get('https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html')
        Con  = Wait.until(EC.element_to_be_clickable((By.XPATH,'/html/body/div[2]/div[2]/div[6]/div[2]/div[2]/div[1]/div')))
        Con.click()
        
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值