爬虫Selenium

-----启动浏览器,打开网页-----
from selenium import webdriver

# 指定webdive 存放位置
path = r'D:\Courses\P9s\selenium\edgedriver_win64\msedgedriver.exe'
# 实例化一个浏览器驱动对象(edge、chrome或者其他)
# 首字母大写

browser = webdriver.Edge(path)

# 打开指定的网页url
browser.get("https://www.baidu.com")
-----截图、关闭浏览器-----
from selenium import webdriver

path = r'D:\Courses\P9s\selenium\edgedriver_win64\msedgedriver.exe'
browser = webdriver.Edge(path)
browser.get('https://www.baidu.com')
# 截图预览
browser.get_screenshot_as_file('截图.png')
browser.close()
-----打开百度,搜索框输入内容,点击搜索-----
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

path = r'D:\Courses\P9s\selenium\edgedriver_win64\msedgedriver.exe'
browser = webdriver.Edge(path)
browser.get('https://www.baidu.com')
ele = browser.find_element(By.ID, 'kw')  # 搜索框
ele.send_keys('世界杯' + Keys.RETURN)
-----爬取技术博客-----
from selenium import webdriver
from selenium.webdriver.common.by import By

wd = webdriver.Edge()
wd.get('https://v3u.cn/l_id_1')
articles = wd.find_elements(By.CSS_SELECTOR, 'body>div>section>div>div.col-md-8>articles.blog-post')
for article in articles:
    if article.find_element(By.CSS_SELECTOR, 'article>div>h2>a'):
        title = article.find_element(By.CSS_SELECTOR, "article > div > h2 > a").text
        link = article.find_element(By.CSS_SELECTOR, "article > div > h2 > a").get_attribute("href")
        print(title, '---', link)
-----反爬--识别selenium+webdriver-----
webdriver = window.navigator.webdriver;
if(webdriver){
    console.log('你这个xx,你以为使用Selenium模拟浏览器,我就不能发现你吗?')
    //执行封禁、拉黑代码。。。。
} else {
    console.log('正常浏览器')
}
-----使用版本的推荐方法 **find_element()**
**使用的时候需要导入模块  \**from selenium.webdriver.common.by import By\****
属性定位方法
原定位方法find_element_by_*
推荐定位方法find_element()-----
xpath

find_element_by_xpath("//*[@id='search']")

find_element(By.XPATH, "//*[@id='search']")

class_name

find_element_by_class_name("element_class_name")

find_element(By.CLASS_NAME, "element_class_name")

id

find_element_by_id("element_id")

find_element(By.ID,"element_id")

name

find_element_by_name("element_name")

find_element(By.NAME, "element_name")

link_text

find_element_by_link_text("element_link_text")

find_element(By.LINK_TEXT,"element_link_text")

css_selector

find_element_by_css_selector("element_css_selector")

find_element(By.CSS_SELECTOR, "element_css_selector")

tag_name

find_element_by_tag_name("element_tag_name")

find_element(By.TAG_NAME, "element_tag_name")

partial_link_text

ind_element_by_partial_link_text("element_partial_link_text")

find_element(By.PARTIAL_LINK_TEXT, "element_partial_link_text")

您好!对于亚马逊爬虫,使用Selenium是一个常见的选择。Selenium是一个自动化测试工具,可以模拟用户在网页上的操作。通过Selenium,您可以实现打开亚马逊网页、搜索商品、获取商品信息等操作。 如果您想使用Selenium爬取亚马逊网页,首先需要安装Selenium库并配置相应的浏览器驱动。您可以使用以下步骤来进行操作: 1. 安装Selenium库:在命令行中运行`pip install selenium`来安装Selenium库。 2. 下载浏览器驱动:Selenium需要与特定的浏览器驱动配合使用,您需要根据您所使用的浏览器下载对应的驱动。例如,如果您使用的是Chrome浏览器,可以从Chrome Driver官方网站(https://sites.google.com/a/chromium.org/chromedriver/)下载适用于您的Chrome浏览器版本的驱动。 3. 配置浏览器驱动:将下载的驱动解压缩后,将驱动所在的路径添加到系统环境变量中,或者在代码中指定驱动的路径。 4. 编写爬虫代码:使用Selenium的API来编写爬虫代码。例如,您可以使用`webdriver.Chrome()`创建一个Chrome浏览器对象,然后使用该对象模拟用户在亚马逊网页上的操作,如搜索商品、点击链接、获取页面内容等。 需要注意的是,使用Selenium进行爬虫操作时,应该遵守网站的使用条款和服务协议,确保合法合规地进行爬取。此外,为了减少对服务器的负载并保护您的爬虫不被检测到,您可以设置适当的请求间隔、使用随机User-Agent等策略。 希望以上信息对您有帮助!如果还有其他问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值