- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 Scrapy 通过代理(Proxy)爬取外部网站
Scrapy 通过代理(Proxy)爬取外部网站通常我们不需要特殊处理就能直接的访问WWW。但当你处于内部网络通过代理访问外部的时候,或者一些特殊的情况下,你会需要这个技能。默认你已经会用Scrapy制作蜘蛛了。你可以参考我的另一个介绍页面,或者其他更详尽的教程。最简单直接的办法就是在蜘蛛的开头设置系统环境变量像这样:import os# 设置相应的代理用户名密码,主机和端口号os.enviro
2017-12-20 13:58:56 8482 1
原创 用Scrapy爬取Domain认证的内网数据比如SharePoint
用Scrapy爬取Domain认证的内网数据只要是浏览器里面能够访问的东西,理论上都可以被爬虫爬取。有了这个信念,基本上所有问题就解决一半啦,笑~公司内部网络通常都是由域控制器统一做安全登录认证,这对于window系的公司尤为常见。通常爬取内网Domain服务器认证的内部网站,基本都会返回401错误,这就是告诉我们没有通过服务器的认证检验。 那么怎么做呢?安装requests-ntlm认证组件你需
2017-12-18 17:08:50 3912
原创 用Python 的 Scrapy 爬取 网站
用Python 的 Scrapy 爬取网站说到制作蜘蛛爬取网站听起来挺简单的,其实深究起来是个蛮综合的应用,有不少技能点需要点亮。比如:基本的Request/ResponseHTML,CSS,XPath,JavaScript等前端技能点 即便你有这些技能点加成,不管你是Newbee还是老鸟,如果你坚持不懈的要制造自己的轮子,很多坑估计你死多少遍也填不平。这时候我适时的推荐你用Scrapy这个框
2017-12-14 16:58:21 1638
原创 Oracle 数据库中的内容加密与解密 dbms_crypto
Oracle 数据库中的内容加密与解密说起来Oracle中有很多涉及加密解密的东西,今天说的这个是dbms_crypto。有没有遇到过这样的应用场景,需要将一些敏感数据字段脱敏之后发送给下游。之后下游处理完其他数据之后会携带这个脱敏字段再发回给你,你再用这些敏感信息还原出原始的值匹配更新原来的数据。最近我就遇到了。找了一下,Oracle还真有类似的包:dbms_crypto,使用这个包需要管理员登录
2017-12-12 16:57:25 11545
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人