爬虫
缓次郎
这个作者很懒,什么都没留下…
展开
-
使用 SCF 实现贴吧云签
白嫖 SCF 配合 Python 实现贴吧云签原创 2020-07-09 14:50:15 · 344 阅读 · 0 评论 -
协程初体验——爬取B站专栏图片
对于B站专栏这种静态网页来说,爬取图片思路的很简单:请求网页拿到 HTML解析拿到的 HTML 提取出图片链接至于协程我推荐去看 Python 官方文档,然后写几个爬虫试试差不多就明白写法的固定模式了。直接上代码:BiliArticelImgCrawler.pyimport reimport asynciofrom lxml.html import fromstringfrom crawler import Crawlerfrom config import ConfigH原创 2020-07-08 12:27:02 · 641 阅读 · 0 评论 -
爬虫模拟登录的思路
创建时间 2020年7月6日通过对 COOKIES 的分析找出登录必需的 COOKIE,剔除可能会导致登录状态失效的 COOKIE(有些过期时间短的非必要 COOKIE 可能会导致模拟登录失败)。方法并不局限于 B 站,对绝大部分网站来说都是适用的。1. 分析必需 COOKIE抓包登录接口获取返回的 Set-Cookie 值在站点信息中找 COOKIE,然后去除不必要 COOKIE 然后保存必须 COOKIE对第 2 步去除 COOKIE来说,有如下技巧:看名字看过期时间一般来.原创 2020-07-08 12:13:43 · 561 阅读 · 0 评论 -
wxPython 和协程
wxPython 和协程最近写爬虫要用到 GUI,于是入坑了 wxPython,但貌似原生 wxPython 对协程的支持不是很好。遽上网搜索相关文章,然而不知道是不是由于搜索姿势不对,并没有找到相关的内容。咸鱼了一天后终于在 Google 上找到了答案——wxasync。下面是用 wxasync 撸的一个最简单的 wx 程序,如果你和我一样碰到了同样的问题,希望本篇文章能够帮到你。import asyncioimport wximport wxasyncclass Frame(wx.Fr原创 2020-05-13 21:52:43 · 409 阅读 · 0 评论