爬虫 GuozhongCrawler
文章平均质量分 71
郭钟
B站:https://space.bilibili.com/105035514
展开
-
解决selenium无法得到全量的cookie问题
解决selenium无法得到全量的cookie某爬虫工程师:selenium无法得到全量的cookie?这是什么问题?我用起来没问题啊。嗯,是的。如果你仅仅抓取单域名网站很可能遇不到这个问题,仅仅通过webDriver.manage().getCookies()这个方法就可以获取cookie。selenium无法得到全量的cookie的场景:多域名网站群。实战场景举例:当年我在某互金公司做淘宝、支付宝网站用户信息抓取的项目的时候,用户会通过我们爬虫服务api传给我们账户/密码或者扫码我们劫持的淘原创 2021-01-21 18:14:00 · 5982 阅读 · 1 评论 -
高效爬虫思维之将curl命令解析成功http请求对象
欢迎使用goniub 我带来的不仅仅是一个框架,最重要是做爬虫的思想。感谢大家的关注,因为各种原因文档迟迟未更新。但是还是有“识货”的人,进去看了goniub的源码。因为觉得好用所以给了star和fork,我再次由衷感谢大家对goniub的认可。** goniub是一个java爬虫工具库,如果你想提高开发爬虫的效率,如果你用selenium老是被网站检测到机器识别,如果你想实现js注入。请你立马用goniub。**添加maven依赖<dependency> <groupId&g原创 2021-01-21 18:10:51 · 904 阅读 · 0 评论 -
新浪爬虫微博个人地址公司等信息抽取正则表达式
新浪把用户信息生成js。然后动态执行js生成html。所以大家看到为什么在html标签里面找不到信息。大家,下面的正则对静态页面抽签就可以了。 抽取微博数:>(\d+)微博 抽取地址:2[\\rnt\s]+[\\rnt\s]+([^\\rnt\s]+[ ]{0,1}[^\\rnt\s]+)[\\rnt\s]+原创 2015-08-21 11:08:20 · 1719 阅读 · 0 评论