![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 51
wibilifunnny
这个作者很懒,什么都没留下…
展开
-
xpath定位的用法 (“//标签名[ @属性= “属性值“]“)
一、xpath:属性定位 xpath : ("//标签名[ @属性= "属性值"]")xptah也可以通过元素的id、name、class这些属性定位,如下图2.于是可以用以下xpath方法定位二、xpath:其它属性1.如果一个元素id、name、class属性都没有,这时候也可以通过其它属性定位到三、xpath:标签1.有时候同一个属性,同名的比较多,这时候可以通过标签筛选下,定位更准一点2.如果不想制定标签...转载 2021-06-25 10:41:09 · 2707 阅读 · 0 评论 -
xpath定位当前元素的相邻元素/兄弟元素
xpath定位当前元素的相邻元素/兄弟元素前一位:../div[@="class"]/preceding-sibling::div[1]后一位:../div[@="class"]/following-sibling::div[1]前N位:../div[@="class"]/preceding-sibling::div[N]后N位:../div[@="class"]/following-sibling::div[N]...原创 2021-05-26 09:41:46 · 440 阅读 · 0 评论 -
hancel秋 charles安装与配置
hancel秋charles安装与配置一、charles简介 Charles是常用的网络封包截取工具,在做移动开发时,我们为了调试与服务器端的网络通讯协议,常常需要截取网络封包来分析。 Charles 通过将自己设置成系统的网络访问代理服务器,使得所有的网络访问请求都通过它来完成,从而实现了网络封包的截取和分析。 除了在做移动开发中调试端口外,Charles 也可以用于分析第三方应用的通讯协议。配合 Charles 的 SSL 功能,Charles 还可以分析 Https 协议..转载 2021-05-19 14:44:20 · 228 阅读 · 0 评论 -
xpath定位当前元素的相邻元素/兄弟元素
前一位:../div[@="class"]/preceding-sibling::div[1]后一位:../div[@="class"]/following-sibling::div[1]前N位:../div[@="class"]/preceding-sibling::div[N]后N位:../div[@="class"]/following-sibling::div[N]原创 2021-05-13 11:23:27 · 427 阅读 · 0 评论 -
Beautiful Soup解析工具
1. 简介简单来说,Beautiful Soup 就是 Python 的一个 HTML 或 XML 的解析库,可以用它来方便地从网页中提取数据。官方解释如下:Beautiful Soup 提供一些简单的、Python 式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 UTF-8 编码。你不...原创 2021-04-14 18:07:06 · 706 阅读 · 0 评论 -
xpath之定位方法
属性定位 以baidu.com为例: 进入百度后打开xpath,快捷方式 ctrl+shift+x 右键鼠标点击 ‘检查’ 定位找到’ 输入文本框 ‘//input[@id='kw']定位找到 ‘ 百度一下 ’//input[@class='bg s_btn']image.png层级定位 找到 ‘百度首页’//a[@class="toindex"] 方式一通过属性定位//div[@id='head']/div/div[2]/a[1] 方式二通过层级..转载 2021-04-12 17:29:30 · 386 阅读 · 0 评论 -
快手根据用户ID获取视频信息
import codecsimport requestsimport jsonimport timeimport remcn_url = "https://wxmini-api.uyouqu.com/rest/wd/wechatApp/feed/profile"headers = { 'Host': 'wxmini-api.uyouqu.com', 'Connection': 'keep-alive', 'Content-Length': '31', 'Use.原创 2021-03-26 10:24:17 · 12103 阅读 · 2 评论 -
反爬虫机制和破解方法汇总
什么是爬虫和反爬虫?爬虫:使用任何技术手段,批量获取网站信息的一种方式。 反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。常见的反爬虫机制通过UA 识别爬虫 有些爬虫的UA是特殊的,与正常浏览器的不一样,可通过识别特征UA,直接封掉爬虫请求 设置IP访问频率,如果超过一定频率,弹出验证码 如果输入正确的验证码,则放行,如果没有输入,则拉入禁止一段时间,如果超过禁爬时间,再次出发验证码,则拉入黑名单。当然根据具体的业务,为不同场景设置不同阈值,比如登陆用户和非登陆用..转载 2020-11-16 11:30:22 · 1175 阅读 · 0 评论