暑假学习 Python爬虫基础（4）

最新推荐文章于 2024-04-08 08:26:02 发布

张子枫的男朋友呀

最新推荐文章于 2024-04-08 08:26:02 发布

阅读量334

点赞数

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/urbeen/article/details/99671554

版权

本文记录了作者在暑假期间学习Python爬虫的基础知识，并尝试爬取百度文库文章及手机软件的过程。在爬取百度文库时遇到点击继续阅读的分块覆盖问题，尚未解决；随后转向手机App爬取，按照博客教程抓取了英雄图片并补充了未完成的代码，但功能实现仍有待完善。

摘要由CSDN通过智能技术生成

学习的一些基础也完成的差不多了，下面就尽量自己来完成一下对百度文库文章的爬取，尽量自己自主完成

还有就是手机软件爬虫的实现

百度文库文章的爬取

手机端的反爬手段少一点，可以修改头部，让其实现手机端网页的访问

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
driver = webdriver.Chrome(chrome_options=options)
driver.get('https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html')

爬取百度文库的过程中，到了点击继续阅读的部分时，报错了，因为上面有一个分块，覆盖在其上面，导致其无法点击，在网上找了许多的东西都没有尝试成功，正是这样的过程才发现了很多自己的不足。所以说还是要多实践呀！问题一直没有得到解决，所以我一直就卡在了下面这一段，也对这个项目失去了一些兴趣，所以暂时先放一放。

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException

def search():
        options = webdriver.ChromeOptions()
        options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
        driver = webdriver.Chrome(chrome_options=options)
        Wait = WebDriverWait(driver,10)
        driver.get('https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html')
        Con  = Wait.until(EC.element_to_be_clickable((By.XPATH,'/html/body/div[2]/div[2]/div[6]/div[2]/div[2]/div[1]/div')))
        Con.click()

最低0.47元/天解锁文章

张子枫的男朋友呀

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
暑假学习 Python爬虫基础（4）

学习的一些基础也完成的差不多了，下面就尽量自己来完成一下对百度文库文章的爬取，尽量自己自主完成还有就是手机软件爬虫的实现百度文库文章的爬取手机端的反爬手段少一点，可以修改头部，让其实现手机端网页的访问from selenium import webdriveroptions = webdriver.ChromeOptions()options.add_argument('u...
复制链接

扫一扫

专栏目录