熟悉爬虫的朋友了解,通过https://www.bing.com/search?q=xxx
得到的搜索结果的link是重定向地址,例如:
https://www.bing.com/ck/a?!&&p=091e40362b8d4826b649e921bd0d904bd2f394616eee35ff5b54f4739c83d8eaJmltdHM9MTczNzY3NjgwMA&ptn=3&ver=2&hsh=4&fclid=383034c5-327e-6099-16c1-21ba334b616d&psq=2024+ACL+accepted+paper&u=a1aHR0cHM6Ly8yMDI0LmFjbHdlYi5vcmcvcHJvZ3JhbS9tYWluX2NvbmZlcmVuY2VfcGFwZXJzLw&ntb=1
其中参数u的值就是目标地址:
a1aHR0cHM6Ly8yMDI0LmFjbHdlYi5vcmcvcHJvZ3JhbS9tYWluX2NvbmZlcmVuY2VfcGFwZXJzLw
- 去掉前2个字符
- 使用
=
补全字符串长度至4的倍数 - 将
_
替换为/
,-
替换为+
- 使用base64解码为utf-8格式。
得到目标网址
https://2024.aclweb.org/program/main_conference_papers/
前面的方法失效:
5. 将重定向地址交给大模型deepseek,让其给出目标地址。
6. 进入base64编码码在线网址,输入目标地址,将编码与重定向地址中的值进行对照,就可得到新的解码规则。