用Scrapy爬取Domain认证的内网数据比如SharePoint

最新推荐文章于 2024-07-26 10:45:15 发布

软猫克鲁

最新推荐文章于 2024-07-26 10:45:15 发布

阅读量3.8k

点赞数 1

分类专栏： python 文章标签：爬虫 sharepoint python-scrapy python-爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lj0425/article/details/78834994

版权

用Scrapy爬取Domain认证的内网数据

只要是浏览器里面能够访问的东西，理论上都可以被爬虫爬取。有了这个信念，基本上所有问题就解决一半啦，笑~

公司内部网络通常都是由域控制器统一做安全登录认证，这对于window系的公司尤为常见。通常爬取内网Domain服务器认证的内部网站，基本都会返回401错误，这就是告诉我们没有通过服务器的认证检验。
那么怎么做呢？

安装requests-ntlm认证组件

你需要pip安装requests-ntlm，这个东西可以帮你完成内网的Request认证。
安装完成之后记得在ipython里面测试一下基本的访问情况：

import requests
from requests_ntlm import HttpNtlmAuth

requests.get("http://internal_protected_site.com",auth=HttpNtlmAuth(

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
用Scrapy爬取Domain认证的内网数据比如SharePoint

用Scrapy爬取Domain认证的内网数据只要是浏览器里面能够访问的东西，理论上都可以被爬虫爬取。有了这个信念，基本上所有问题就解决一半啦，笑~公司内部网络通常都是由域控制器统一做安全登录认证，这对于window系的公司尤为常见。通常爬取内网Domain服务器认证的内部网站，基本都会返回401错误，这就是告诉我们没有通过服务器的认证检验。那么怎么做呢？安装requests-ntlm认证组件你需
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。