![](https://img-blog.csdnimg.cn/5fab34f92d2e416abbca044296d9dbd2.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
WebMagic框架模块
文章平均质量分 77
WebMagic框架
芝士味的椒盐
华为云云享专家、51CTOtop红人、阿里云社区专家博主、2021年第十届“中国软件杯”大学生软件设计大赛-B3-高并发条件下消息队列的设计与实现国赛二等奖、2021年浙江省职业院校技能大赛高职组“大数据技术与应用”赛项一等奖、2020“智海”人工智能技术服务技能大赛省三等奖、2018全国职业院校技能大赛中职组电子电路装调与应用赛三等奖
展开
-
webmagic+selenium+tesseract-ocr实现米扑代理爬取
WebMagic简介webmagic是不需要配置,便捷数据挖掘的爬虫框架,其拥有简单且灵活的api。webmagic整体采用模块化架构,整个爬虫的生命周期:提取连接——>页面下载——>内容提取——>数据持久化,并且支持多线程挖掘,支持分布式挖掘,支持自动重试,自定义cookies,模块可定制化等功能。Selenium简介selenium是一款遵守Apache License 2.0协议的开源框架,用于Web程序自动化测试工具,selenium测试...原创 2022-01-16 00:15:18 · 9032 阅读 · 1 评论 -
Windows和MacOS上安装Selenium
安装SeleniumSelenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作。对于一些JavaScript渲染的页面来说,这种抓取的方式非常有效。安装:命令行中输入安装命令:pip3 install selenium验证安装:import seleniu安装ChromeDriver前面我们安装好了selenium库,但是它是一个自动化测试工具,需要浏览器配合使用,这里我们选择Chrome浏览器。查看浏览器版本在浏览器的原创 2022-01-12 14:56:20 · 446 阅读 · 0 评论