![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫相关
文章平均质量分 91
主要涉及爬虫相关的技术栈,请求equests模块,响应模块 xpath,pquery,模拟访问页面 selenium,验证码处理,存储 mongodb,redis等
hjc_042043
老码农
展开
-
selenium实战之爬取虎牙直播列表页
从页面结构来看,登录弹窗是在一个 id="UDBSdkLgn_iframe"的iframe中,所以我们在这里在进来时候,需要先切换到 iframe中,然后将窗口关闭。前面有了 selenium的基础,这里就拿虎牙直播页面来做一个实战测试,这是作为学习,测试使用,并不用作为商业用途,不刻意损害他人利益。我们需要把中间部分的列表页面内容给爬取下来,包括直播间封面,名称,主播昵称,头像,热度,游戏类别等。原创 2024-03-28 23:18:35 · 444 阅读 · 0 评论 -
python爬虫之selenium4使用(万字讲解)
声明以下的例子,只是来作为测试学习,并不作为真正的爬虫我们在浏览一些网站时,有不少内容是通过 JavaScript动态渲染的,或是 AJAX 请求后端加载数据,这其中涉及到了不少加密参数如 token,sign,难以找规律,较为复杂。像前面的百度贴吧的一个评论的回复,百度翻译等,都是经过ajax动态 加载得到。为了解决这些问题,我们可以直接模拟浏览器运行,然后爬取数据,这样就可以实现在浏览器中看到内容是怎么样了,不用去分析 JS 的算法,也不用去管 ajax 的接口参数了。原创 2024-03-28 02:26:10 · 3939 阅读 · 0 评论 -
python爬虫之xpath+多进程爬取百度贴吧实战
本项目采用 xpaht+进程池实战,来取百度贴吧的一篇评论实战,是用来学习用,没有别的商业用途和恶意请求。原创 2024-03-22 13:36:53 · 1092 阅读 · 0 评论 -
python之jsonpath的使用
JSONPath能在复杂的JSON数据中 查找和提取所需的信息,它是一种功能强大的查询语言,可以通过简单的表达式来快速准确地定位和提取JSON数据。本文将介绍JSONPath的基本语法和用法,并为您展示如何封装和使用JSONPath方法来处理和操作JSON数据。JSONPath类似于XPath提供了一种更简洁、灵活和高效的方式来查询、定位和提取JSON数据中的内容。原创 2024-03-20 00:27:20 · 887 阅读 · 0 评论 -
python爬虫之xpath入门
XPATH(XML Path Language),它可以在 XML 和 HTML文档中对元素和属性进行查找和遍历。XPath 使用路径表达式来选取 XML 文档中的节点或节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常类似。使用chrome 插件选择标签时候,选中时,选中的标签会添加属性class=“xh-highlight”原创 2024-03-19 23:24:26 · 1182 阅读 · 0 评论 -
Python之requests实现github模拟登录
前面学习了requests模块的基础学习后,接下来做一个实战应用,会涉及到requests的post 请求,请求头headers的设置,利用sesson保持 cookie状态等这是拿 github 模拟登录来对 requests模块的get, post方法,以及登录状态保持做的一个应用,主要是为了巩固知识点。它的登录机制还算是比较简单的,因为大部分值都是固定的可以获取到,像真正项目过程中,post 来源的数据都是需要调用接口,或 JS 逆向才能拿到。原创 2024-03-14 01:57:53 · 1010 阅读 · 0 评论 -
Python的网络请求模块requests
requests 库是一个 python中比较有名的 http请求的库,能处理 get,post,put,delete 等 restful请求,能设置 header,cookie,session 等操作,也是作为爬虫的基础库,它目前还不能异步请求,如果要支持异步,官网文档上也说,用 httpx 等代替。原创 2024-03-04 00:52:07 · 941 阅读 · 0 评论 -
python 之pymongo增删查改和管道操作
前面有了mongodb命令操作学习以及pymongo单例连接池的学习,"""批量插入数据,自定义_id@return:"""{"_id": 1, "name": "曹操"},{"_id": 2, "name": "曹丕"},{"_id": 3, "name": "典韦"},{"_id": 4, "name": "许诸"}pass。原创 2024-03-11 16:58:40 · 875 阅读 · 0 评论