- 博客(11)
- 资源 (5)
- 收藏
- 关注
原创 爬虫难点
这篇文章结合我做的搜索引擎项目遇到的问题,做一个功能完善,易于扩展的爬虫还真是费心费力,虽然这些技术都被人研究过,但实际自己动手从零做起,还是会遇到很多很多问题,此文列举出一些我觉得比较难解决,或者比较难以发现,难以考虑周全的问题,用来给大家参考。可能有些问题下面没有给出我的解决方案,但我会不定期更新,最近太忙了。。。1.如何构建一个功能易于扩展的爬虫。2.如何构建一个架构
2014-03-30 22:59:44 2449
原创 HttpURLConnection getHeaderFields().get("Content-Type") 获得网页编码问题
对于有些网页,使用HttpURLConnection 的 getHeaderFields().get("Content-Type") 能正确获得网页的编码。但有些网页却不能正确地获得,通过查看服务器返回的头信息,发现了问题所在,http://it.sohu.com/20090711/n265142337.shtml 响应头null : [HTTP/1.0 200 OK]Date :
2014-03-24 20:33:01 7429
原创 java String.substring 的一个问题
使用 String 类的 substring 方法并指定两个参数,startIndex , end Index,十分注意后面一个 endIndex 是不包含在内的。由此问题引发了一个 BUG ,谨记。
2014-03-23 15:58:44 547
原创 容器遍历内部删除
知道遍历容器,在循环内部删除元素会导致问题,但用的时候却想不起来为什么会导致这样的问题,也不知道如何处理了。现在列于此。对于 C++ 的容器,调用 earse 方法后,该方法返回下一个指向容器元素的迭代器,要将这个值重新赋值给迭代器变量。for(VectorType::iterator it = someVector.begin(); it != someVector.en
2014-03-11 17:18:17 858
原创 两层 if 防止同步问题
最近在阅读 weblech 的源代码的时候,发现一个写法有点意思。public void saveCheckpoint() { SpiderConfig config = SpiderConfigInit.getSpiderConfigInit().getSingleSpiderConfig(); long intervalMillis = 1
2014-03-10 22:10:49 933
原创 前台js 与php 后台交互传输字符串,处理反斜杠的问题
问题是这样的,目前我在做一个爬虫,有一堆配置,所以写了个网站用来简化配置,后台用的网上的框架。其中有一项是要传入某些正则表达式规则用来过滤。但在前台录入这些正则规则后数据库中以及再次显示这些规则时,所有正则表达式中的反斜杠都不见了。于是,先想到可能是服务器接受字符串时作了处理,于是用两个反斜杠来表示反斜杠。再看效果确实没有问题,从前台录入的正则表达式虽然比原来要长(因为原来正则表达式中的一个反
2014-03-09 16:17:55 2277
原创 一个对JAVA不熟悉导致实现造轮子的悲惨故事
近期有个项目是要实现一个简单的垂直搜索引擎,在做爬虫这一块时,要分析页面上所有的URL。但有些URL采用的是相对链接地址形式。如:http://blog.csdn.net/lizhihaoweiwei/article/details/17839481这个页面上有个链接叫做 34342,则这个链接的真实地址为:http://blog.csdn.net/lizhihaoweiwei/artic
2014-03-05 17:17:41 2060 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人