爬虫
文章平均质量分 91
笔记啦
夏天的风 夏天的风
这个作者很懒,什么都没留下…
展开
-
网页解析工具(pyqury,RE,jsonpath,BS4,xpath,)
jsonpathjsonpathpip install jsonpath 导入模块。原创 2023-08-02 01:42:43 · 381 阅读 · 0 评论 -
爬虫(requests)
requests目前基本上完全满足web请求的所有需求,以下是requests 的特性:连接池国际化域名和URL带持久Cookie的会话浏览器式的SSL认证自动内容解码基本摘要时的身份认证优雅的自动解压Unicode响应体HTTP(S)代理支持文件分块上传流下载连接超时分块请求支持.netrc10 个重要的参数如果想自定义请求的Headers,同样的将字典数据传递给headers参数。Requests中自定义Cookies也不用再去构造。原创 2023-08-02 01:04:51 · 607 阅读 · 0 评论 -
scrapy框架
scrapy startproject Tencent (Tencent项目名)原创 2023-09-12 17:16:47 · 171 阅读 · 0 评论 -
Selenium自动化
在selenium操作浏览器的过程中,每一次请求urlselenium都会等待页面加载完成以后,才会将操作权限在交给我们的程序。但是,由于ajax和各种JS代码的异步加载问题,当一个页面被加载到浏览器时,该页面内的元素可以在不同的时间点被加载,这就使得元素的定位变得十分困难,当元素不再页面中时,使用selenium去查找的时候会抛出异常。为了解决这个问题,selenium提供了两种等待页面加载的方式,显示等待和隐式等待,让我们可以等待元素加载完成后在进行操作。原创 2023-08-03 00:13:53 · 47 阅读 · 0 评论 -
超级鹰,字符,点触,滑块验证码识别
https://digi.bib.uni-mannheim.de/tesseract/可自行下载,点击下一步即可;Windows下安装。原创 2023-07-18 17:02:54 · 2078 阅读 · 0 评论