- 博客(4)
- 收藏
- 关注
原创 网络爬虫之反爬小综述
一、网络爬虫的一般作法 (1)基于Socket通信编写爬虫,这是相对最低层的方式,它可以完全控制Input/Output等,但对编程水平有很大考验,一般为了简单其鉴,多是基于第三方封装的网络包来做,而非直接基于socket编程。 ps: socket不是一种通信协议,而是一种实现上下层通信的通讯机制,它衔接着如上层http协议和下层tcp/ip协议的通信与...
2014-06-17 22:43:08 256
原创 如何避免搜索引擎爬虫产生的流量过大以及搜索引擎设置优化
转载自:http://www.qiexing.com/post/web-seach-spider.html 今天却收到了虚拟主机商的报告:说当月流量已经超出15G! 登录到后台的统计才发现,正常的网站浏览产生的流量才1G多,而搜索引擎爬虫(也称蜘蛛:spider等)产生的流量却达14G之多!有图为证: 为什么会搜索引擎爬虫会产生这么大的流量,特别是搜狗的爬虫与bspider...
2014-06-17 20:30:42 2411
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人