Python Selenium爬虫,爬取翻页URL不变的网站

遇到的问题 Selenium需要安装geckodriver

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
from selenium.webdriver.support.ui import Select
import openpyxl as op
import selenium 

 这里注释content的原因是driver.back() 并没有回到上一页(未解决),而是回到了起始页,由于url不变可能是后退过程中丢失了缓存值,因此二次爬取页面内容时,是进入网址内爬取的。

# 打开指定(Firefox)浏览器
driver = webdriver.Firefox()
# 获得指定页面
driver.get("..")
wb = op.Workbook() # 创建工作簿对象
ws = wb['Sheet'] # 创建子表
ws.append(['标题','日期','网址','内容']) # 添加表头
# 页面循环 需要循环点击下一页
page=1
def getData():
    time.sleep(2)
    for i in range(1,11):
        # 通过 xpath找到title_list 这里的list 需要text
        title = driver.find_element(By.XPATH, '/html/body/div[5]/div/div/div[1]/div['+str(i)+']/a').text
        # 获得日期
        date = driver.find_element(By.XPATH, '/html/body/div[5]/div/div/div[1]/div['+str(i)+']/span').text
        # 获得网址 网址在href属性值里
        url = url = driver.find_element(By.XPATH, '/html/body/div[5]/div/div/div[1]/div['+str(i)+']/a').get_attribute("href")
#         # 找到内容按钮
#         content_button =  driver.find_element(By.XPATH,'/html/body/div[5]/div/div/div[1]/div['+str(i)+']/a')
#         # 进行点击操作
#         content_button.click()
#         content_list = driver.find_elements_by_class_name('MsoNormal')
#         # 将content数据text写入到content里
#         content = ""
#         for j in range(len(content_list)):
#             content = content+content_list[j].text
        # 将 title date url content写入到excel中 一行一行写
        row = title,date,url
#         ,content
        ws.append(row)
        wb.save('notice.xlsx')
        
while page<= 180:  # 循环页数
    getData()
#     /html/body/div[5]/div/div/div[2]/div/a[8]
    driver.find_element(By.XPATH,'//a[@class="layui-laypage-next"]').click()
    page += 1

关于driver.back() 爬取第一页时,进入内容 再driver.back(),会回到第一页(左)上。

但爬取第二页时,进入内容再driver.back(),并不会回到第二页 而是直接跳转到第一页 可能是缓存的数据丢失。

driver.back()

因此获取公告的内容是二次进行读取的

data = pd.read_excel('notice.xlsx')
driver = webdriver.Firefox()
for i in range(0,data.shape[0]):
    # 发现页面在sleep(5)时不会出现加载缓慢的情况
    time.sleep(5)
    driver.get(data.loc[i,'网址'])
    content_list = driver.find_elements_by_class_name('content2')
    # 将content数据text写入到content里
    content = ""
    for j in range(len(content_list)):
        content = content+content_list[j].text
    data.loc[i,'内容'] = content

 最后获得数据

  • 7
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: Python爬虫中可以使用Selenium库来网页信息。Selenium可以模拟浏览器行为,能够JavaScript渲染后的网页信息。使用Selenium网页时,需要配合浏览器驱动(如ChromeDriver、FirefoxDriver)使用。 ### 回答2: Python是一种高级编程语言,吸引了大量编程人员和开发者使用Python进行Web开发、数据分析、机器学习和人工智能等领域的开发。爬虫技术正是其中的一项重要技术,用python编写爬虫程序通常更加便捷和灵活。而seleniumPython中主要的爬虫库之一,用于动态Web页面,可以模拟用户在浏览器中的行为,从而获大量数据。 使用selenium信息可以分为以下几个步骤: 1.安装和导入selenium和webdriver: 首先需要安装适合的版本的selenium包,并导入selenium和webdriver模块: ```python from selenium import webdriver ``` 2.配置浏览器驱动: Selenium需要浏览器驱动(如Chrome,Firefox等)来与其进行交互,需要配置如下: ```python driver = webdriver.Chrome() ``` 其中,Chrome()表示使用Chrome浏览器驱动,如果使用Firefox,则需要改为Firefox()。 3.访问网页: 使用get()函数可以访问指定的网址: ```python driver.get("https://www.baidu.com/") ``` 4.查找元素: 使用selenium的查找元素功能,可以根据元素的ID、name、class、tag等属性进行查找: ```python element = driver.find_element_by_id("kw") # 根据ID查找 element = driver.find_element_by_name("wd") # 根据name查找 element = driver.find_element_by_class_name("s_ipt") # 根据class查找 element = driver.find_element_by_tag_name("input") # 根据tag查找 ``` 5.模拟用户输入/点击: 使用send_keys()函数模拟用户在搜索框中输入关键字,使用click()函数模拟用户在搜索按钮上点击: ```python element.send_keys("Python") element.click() ``` 6.解析数据: 使用webdriver的page_source属性可以获网页的源代码,然后使用正则表达式或BeautifulSoup库等解析数据。 以上就是使用selenium进行爬虫的主要步骤。实际应用中,需要根据不同的网站和需要的数据进行具体的配置和调整。在使用selenium过程中,需要了解一些常见的使用技巧和注意事项,例如模拟等待时间,处理弹窗、验证码等。同时,也需要遵循爬虫的法律和道德规范,不得进行非法、滥用等行为。 ### 回答3: selenium是一种自动化测试工具,它可以模拟浏览器行为,实现自动化操作。在Python爬虫中,selenium也可以用来需要模拟人工操作的网站数据。 使用selenium可以实现以下操作: 1.自动模拟浏览器打开网页,获网页源码。 2.模拟用户操作,如点击按钮、填写文本框、下拉选择框等。 3.通过获网页源码进行数据解析。 基本流程比较简单,首先需要准备好selenium的环境,这需要下载对应的webdriver,这里我使用Chrome浏览器,并且下载了对应版本的chromedriver。 然后通过selenium启动浏览器,在浏览器中进行模拟操作,最后获网页源码进行数据解析。 具体实现可以参考以下代码: ```python from selenium import webdriver from bs4 import BeautifulSoup # 创建一个Chrome浏览器实例 browser = webdriver.Chrome() # 访问目标网页 browser.get('https://www.example.com') # 模拟点击按钮,等待加载完成 button = browser.find_element_by_xpath('//button[@class="btn"]') button.click() browser.implicitly_wait(5) # 获网页源码 html = browser.page_source soup = BeautifulSoup(html, 'html.parser') data = soup.find_all('div', class_='data') # 处理数据 for item in data: # do something # 关闭浏览器 browser.quit() ``` 总体来说,selenium是一个强大的爬虫工具,可以应对大部分需要模拟人工操作的场景,但也存在一些缺点,比如速度慢、占用资源高等。因此在具体应用中需要根据实际情况进行选择。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值