python爬取舔狗语录 初识selenium

16 篇文章 15 订阅
10 篇文章 131 订阅

前言

首先咱们先看看舔狗的卑微经历吧
在这里插入图片描述
看看这卑微的聊天记录,就是那种你发十句,别人不稀得回一句的那种,虽然是舔狗吧,但也玩出花吗,最近刚发现了一个舔狗网站,来看看怎么把舔狗玩出花吧

在这里插入图片描述

分析页面

其实很简单的一个页面,总的流程就是实现点击换页,然后进行文本的获取
先来看看页面
在这里插入图片描述
主要就是两步,通过xpath获取到文本和按钮,然后进行分别操作,先来写一下xpath

因为整个页面只有一个按钮标签,所以获取按钮的xpath很简单,如下图所示
在这里插入图片描述
然后来获取文本内容,与按钮相同,该页面中也只有一个article标签,所以很容易写xpath,如下图,很简单就拿到了
在这里插入图片描述
这样其实就完成了,然后接下来就可以开始写代码了

主要代码

selenium伪装

url = 'https://www.nihaowua.com/dog.html'
    # 躲避智能检测
    option = webdriver.ChromeOptions()
    # option.headless = True
    option.add_experimental_option('excludeSwitches', ['enable-automation'])
    option.add_experimental_option('useAutomationExtension', False)
    driver = webdriver.Chrome(options=option)
    driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument',
                           {'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'
                            })
    driver.get(url)

获取文本内容

text = driver.find_element(By.XPATH, '//article')
print(text.text)

获取按钮并点击

 button = driver.find_element(By.XPATH, '//button')
 button.click()

完整代码

    url = 'https://www.nihaowua.com/dog.html'
    # 躲避智能检测
    option = webdriver.ChromeOptions()
    # option.headless = True
    option.add_experimental_option('excludeSwitches', ['enable-automation'])
    option.add_experimental_option('useAutomationExtension', False)
    driver = webdriver.Chrome(options=option)
    driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument',
                           {'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'
                            })
    driver.get(url)
    i = 0;
    while 1:
        text = driver.find_element(By.XPATH, '//article')
        print(text.text)
        value = text.text
        button = driver.find_element(By.XPATH, '//button')
        button.click()
        time.sleep(1)
        driver.switch_to.window(driver.window_handles[0])
        

成果

这光看不存好像不大符合我这白嫖心理,就把这些内容存在数据库里,有需要sql文件的xdm可以私信我
在这里插入图片描述
总之,蛮简单的一个小爬虫,没事的时候写写,防止自己忘了基础使用

仅供学习,侵权必删

推荐下自己的爬虫专栏,都是一些入门的爬虫样例,有兴趣的兄弟们可以来看看,顺便点一手关注
❤️爬虫专栏,快来点我呀❤️

另外还有博主的爬虫博客目录,进来你才知道对你有没有用,来看看吧
爬虫样例汇总,快来看看吧
在这里插入图片描述

  • 12
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 20
    评论
你可以使用Selenium淘宝商品信息。下面是一个简单的示例代码,演示了如何使用SeleniumPython中进行淘宝商品信息: ```python from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 设置Chrome浏览器的驱动路径 driver_path = 'path/to/chromedriver' # 始化Chrome浏览器 options = webdriver.ChromeOptions() options.add_argument('--headless') # 无头模式,不显示浏览器界面 driver = webdriver.Chrome(executable_path=driver_path, options=options) # 打开淘宝商品页面 driver.get('https://www.taobao.com/') # 定位搜索框并输入关键字 search_input = driver.find_element(By.CSS_SELECTOR, '#q') search_input.send_keys('商品关键字') # 点击搜索按钮 search_button = driver.find_element(By.CSS_SELECTOR, '.btn-search') search_button.click() # 等待搜索结果加载完成 WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '.JIIxO.m-itemlist'))) # 解析搜索结果并提商品信息 items = driver.find_elements(By.CSS_SELECTOR, '.JIIxO.m-itemlist .JIIxO.m-itemlist .JIIxO') for item in items: title = item.find_element(By.CSS_SELECTOR, '.title').text price = item.find_element(By.CSS_SELECTOR, '.price').text print(f'商品名称:{title},价格:{price}') # 关闭浏览器 driver.quit() ``` 请注意,这只是一个简单的示例代码,实际应用中可能需要更多的处理和错误处理。此外,淘宝网站有一些反虫机制,因此在实际使用时需要注意遵守相关规定,避免被封禁。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 20
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小王不头秃

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值