搜狗微信的抓取总结

最新推荐文章于 2025-02-25 10:57:05 发布

SailLiao

最新推荐文章于 2025-02-25 10:57:05 发布

阅读量3.9k

点赞数 2

分类专栏：爬虫及处理

本文链接：https://blog.csdn.net/Lzlovez/article/details/106497859

版权

爬虫及处理专栏收录该内容

3 篇文章

订阅专栏

最近抓取了搜狗微信的数据，虽然也破解了跳转之类的，但是最后因为抓取的链接有时效性放弃了，也总结下

目标网站 https://weixin.sogou.com/

一样的，输入关键词，抓取列表，再回去跳转后的微信链接

前10页是可以随便看的，也不需要登录，10页之后的数据需要微信扫码登录，这一块没法破解

链接参数很多最后可以精简为

https://weixin.sogou.com/weixin?query=烽火&page=11&type=2

page就是页码，query就是关键字，type 是搜索文章还是搜索公众号

获取真实链接

其实很简单的代码，先要在url后面构造出 k 和 h，转化为 java 代码就是

// 拼接搜狗跳转参数k和h
public static String getLinkUrl(String url) {
	int b = ((int) Math.floor(100 * Math.random())) + 1;
	int a = url.indexOf("url=");
	int k = a + 4 + 21 + b;
	String d = url.substring(k, k + 1);
	System.out.println(d);
	url += "&k=" + b + "&h=" + d;
	return "https://weixin.sogou.com" + url;
}

有参数的链接直接请求是会出验证码的，需要cookie，需要的cookie只要是两个一个是 SUV，一个是 SNUID，这两个cookie获取都很简单，通过分析可以得到

1.SUV 是可以通过访问 https://pb.sogou.com/pv.gif 来获取到