![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
sin_404
谎言的世界如果有艺术品,'没时间'一定是被观瞻的最多的一个
展开
-
关于过快S验证码的一些问题
今年真是过的莫名其妙的一年,转眼就最后一天,笔记本手托是真冷,水点东西记录一下好像做了点什么。前段时间分析短视频数据时在扒拉快S数据时发现他们的验证码有些意思,在chrome里手拖能过用selenium老是失败,截数据感觉怎么看都没问题,不管是轨迹模仿还是模拟抖动。一度放弃准备从js逆向入手(js分析是一件让人头大的事情),后来发现问题居然出在拖动滑块的速度上,我还以又出了什么新奇的检测手法。# 这里移速是个固定值,需要在源码里调整class PointerInput(InputDevice):原创 2022-01-31 22:40:08 · 552 阅读 · 0 评论 -
python几个简单的正则使用
获取时间reg = '\d{4}年\d{1,2}月\d{1,2}日'# # reg = '\d{4}年\d{2}月\d{2}日'string = '2019年10月17日 - 论坛引起强烈反响,中国人民大学中国普惠金融研究院(CAFI)理事会联席主席兼院长贝多广...www.licai18.com/article/ArticleDetail.jsp?d...-快照-理财18'x = re.search(reg, string)print(x.group(0))一次性替换多个字符,可以替代多次使原创 2020-05-13 15:14:17 · 193 阅读 · 0 评论 -
python logging日志防止重复打印
直接上代码def getLogging(logFilename='/app/logs/logs.txt'): logger = logging.getLogger() if not logger.handlers: logging.basicConfig( level=logging.INFO, format='...原创 2019-11-26 15:54:02 · 611 阅读 · 0 评论 -
python爬虫 标签对网页内容解析的影响
一 、 第一种是标签嵌套的情况,直接上图。如上图这种情况,直接使用 .xpath("//div/ul[@class='show']/text()")[0]是拿不到被<em></em>标签括在里面的内容的,如果单独获取em标签内容的话,拼接的字符串容易乱套,最好还是一次性拿到字符串。通过搜索引擎发现xpath的.string用法尝试后发现没卵用,八成是版本变迁吧。...原创 2020-01-20 10:20:56 · 497 阅读 · 0 评论 -
python爬虫 \x00对网页解析的影响
前两天在爬贴吧的时候,发现解析网页内容的时候无法获取部分元素。开始以为是动态网页,后发现当前页面包含我需要的数据,并非是靠js异步,在屏蔽js使用后发现通过模拟浏览器和保存到文本后都能解析到文本,唯独我直接把pq(rsp.text)无法获取到元素,这就很有意思了。然后怀疑是否是解析库的缘由,使用lxml与bfs4均无法获取到元素,排除这个原因。接着用蠢办法一步一步解析网页,通过对比删...原创 2020-01-20 10:20:32 · 671 阅读 · 0 评论