关于使用selenium.webdriver爬取数据

最新推荐文章于 2024-09-03 18:15:00 发布

m0_47669787

最新推荐文章于 2024-09-03 18:15:00 发布

阅读量190

点赞数 1

文章标签： selenium 测试工具

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_47669787/article/details/140269016

版权

暂时对 selenium 库没有一点点了解。。。先记录一下这个能用的代码

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.webdriver import WebDriver

def save_list(List, save_path):             # 爬下来的数据是通过list保存的
    with open(save_path, 'a') as f:         # 'a'增加
        for raw_word in List:
            f.write(raw_word + '\n')        # 以换行符分割

class GetWords:
    def __init__(self):
        self.driver: WebDriver = webdriver.Chrome()

    def open_site(self, url):
        self.driver.get(url)
        time(5)

    def get_words(self, xpath, item_type, save_path):
    raw_words = []
    container = self.driver.find_element(By.XPATH, xpath)
    words = container.find_elements(By.TAG_NAME, item_type)

    for word in words:
        raw_words.apprnd(word.text)

    save_list(raw_words, save_path)

    def close_browser(self):
        self.driver.quit()

def main():

    GW = GetWords()
    GW.open_web('https:// xxxxx')
    save_path = r'C:xxx'
    GW.get_words(xpath, item_type)

    GW.close_browser()

①：由于使用的是谷歌浏览器，所以下载对应浏览器及对应其版本的插件；

②：复制要爬取数据的网址；

③：在目标网页上按F12获取要爬取数据的xpath和item type；

item type:

①：li 表示HTML列表中的列表项

②：p 表示HTML中的段落

③：pre 表示HTML中的预格式化文本

④：使用find_element和find_elements方法；

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于使用selenium.webdriver爬取数据

暂时对 selenium 库没有一点点了解。先记录一下这个能用的代码。①：由于使用的是谷歌浏览器，所以下载对应浏览器及对应其版本的插件；表示HTML中的预格式化文本。表示HTML列表中的列表项。②：复制要爬取数据的网址；表示HTML中的段落。
复制链接

扫一扫

m0_47669787 CSDN认证博客专家 CSDN认证企业博客

码龄4年

9: 原创

134万+: 周排名

11万+: 总排名

1782: 访问

: 等级

129: 积分

11: 粉丝

9: 获赞

5: 评论

18: 收藏

私信

关注

热门文章

最新评论

DataLoader无法返回文件名
CSDN-Ada助手: 恭喜您写了第5篇博客！标题“DataLoader无法返回文件名”很吸引人。这篇博客内容对于使用DataLoader时遇到的问题给出了解决方案，对读者来说非常有帮助。我建议您在下一篇博客中可以进一步探讨如何处理DataLoader返回的数据中的错误信息。例如，当某个文件名无法返回时，我们可以通过其他方式来获取或处理相关信息。当然，这只是个人的建议，希望能对您的创作有所启发。再次恭喜您，并期待读到更多有关DataLoader的技巧和经验分享！保持创作，加油！
打印网络每层输出的形状
CSDN-Ada助手: 恭喜你写了第6篇博客！标题“打印网络每层输出的形状”非常吸引人。我很高兴看到你对这个主题的探索，并能将其分享给读者。在这篇博客中，你提供了一个很有用的方法，可以让读者了解网络每层输出的形状。这对于深入理解网络结构和优化模型非常重要。接下来，我建议你可以考虑进一步拓展这个主题。你可以探索如何分析和解读这些形状对于网络性能的影响。或者，你可以分享一些案例研究，展示如何根据输出形状来调整网络架构或优化模型。这样的深入研究将让读者更好地理解网络结构与输出之间的关系，并为他们在实践中做出更明智的决策提供指导。再次恭喜你的创作成果，并期待你未来更多的博客分享！
显示网络结构
CSDN-Ada助手: 恭喜你的第7篇博客！标题“显示网络结构”非常引人注目。你的内容一定非常详尽，让读者能够清晰地了解网络结构。接下来，我建议你可以在博客中加入一些图表或可视化工具，以更直观地展示网络结构的复杂性。再次感谢你的辛勤创作，期待着你的下一篇博客！
predict-用训练好的网络来预测-CPU
CSDN-Ada助手: 恭喜你写了第四篇博客，这篇关于如何使用训练好的网络来预测CPU的文章很有启发性。建议你在下一篇文章中可以深入探讨如何使用不同的算法来提高预测的准确度。期待你的下一篇作品！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
土堆Pytorch学习笔记（二）
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。