爬虫技术
ttitfly
这个作者很懒,什么都没留下…
展开
-
gzip压缩传送
HTTP web 服务在网络线路上传输的 XML。XML 是文本, 而且还是相当冗长的文本, 并且文本通常可以被很好地压缩。当你通过 HTTP 请求一个资源时, 可以告诉服务器, 如果它有任何新数据要发送给我时, 请以压缩的格式发送。 在你的请求中包含 Accept-encoding: gzip 头信息, 如果服务器支持压缩, 他将返回由 gzip 压缩的数据并且使用 Content-encodi...2007-08-27 15:41:41 · 112 阅读 · 0 评论 -
httpclient DNS cache问题解决办法
the JVM will cache the dns information for me automatically after the first query也就是说,httpclient去抓取每个url时,JVM都会自动cache住 这个url和对应的ip,并且是永远cache住,除非cache住的内容大于 JVM的限制 ,如果将来这个url(域名)更换了ip,httpclient会首先去...2007-09-19 16:10:46 · 1472 阅读 · 0 评论 -
爬虫抓取UserAgent问题
爬虫抓取问题:cpp 代码 wget http://www.bokee.net/alisoubao/rss2.xml 这个地址抓取的内容为以前很老的内容。同样用java写的爬虫程序抓取的内容和用wget抓取的内容一样。而用cpp 代码 curl http://www.bokee.net/alisoubao/rss2.xml 抓取的内容则是...2007-10-16 16:27:55 · 423 阅读 · 0 评论