爬虫
月下独奏
这个作者很懒,什么都没留下…
展开
-
我去图书馆 抢座分析
参考https://blog.csdn.net/RenjiaLu9527/article/details/96843605大致分析了一下抢座流程:首先我去图书馆 使用了微信绑定账号,因此平常的账号登录几乎没用。通过抓包分析,用户需要上传SERVERIDwechatSESS_ID 这两个参数才能进行抢座,并且这两个参数会变动,在抢座前一个小时内最好更新参数。难度+1查看自习室列表选择自习室再进行抢座最后提交座位进行选座。选择座位使用Get 需将自己wechatSE...原创 2020-09-09 14:42:50 · 13317 阅读 · 12 评论 -
文本相似度(小说去重)
之前写了爬虫爬取小说,总文件大概70G。但如果换小说网站进行爬取会重复爬取同样的小说,产生不必要的空间浪费。 由于不同网站对小说命名不同,例如:小说名 斗罗大陆.txt,在小说网A命名为斗罗大陆,小说B<斗罗大陆>,小说C 斗罗大陆全集什么的。 如果从小说名来判断会有很多麻烦,并且有的小说网站小说名和小说内容严重不符,因此根据小说名来判断被否决。 随着研究的深入,发现一...原创 2018-10-15 17:19:46 · 3095 阅读 · 5 评论