- 博客(6)
- 资源 (1)
- 收藏
- 关注
原创 伪装豆瓣爬虫程序——如何解决豆瓣禁用爬虫程序?
最近因为业务需要,要将豆瓣上的图书以及影视信息抓取下来,网页抓取其实很简单,很快就完成,但是系统还没上线就发现了问题,豆瓣会根据请求分析客户的行为,判断是否是机器人,如果判断为机器人,将要求输入验证码,最终导致抓取不到数据。 要解决这个问题,主要就两个思路,一个是识别验证码,当要求输入验证码时,识别图片中的验证码;另外一方案是伪装成正常访问,绕过豆瓣的分析程序。前一种方案受限于验证码识别率太...
2012-03-31 15:49:04 954
原创 mongodb初体验
mongodb初体验 如果要选出近两年最火的web技术的话,NOSQL必定为其中之一!鉴于业务量发展的压力,最近项目组也希望完全迁移至NOSQL,所以也关注下NOSQL的知识(之前也有关注,但只是看看介绍而已,没有深入了解),这期间注意到mongodb。不同于Cansandra的key-value形式,mongodb的数据是以文档为单位存储的,mongo中所谓的的文档就是类似于...
2011-04-04 01:50:49 234
原创 iBatis2源码分析(一)——xml解析模块
与大多数ORM框架一样,iBatis2也是用Xml描述ORM映射信息(在annotations出现之前),那么这些XML配置信息是怎么解析呢?呵呵,大部分人看到这儿可能会说:这有啥难的,用DOM或者SAX解析xml都是很容易的事!确实iBatis解析xml的方法也无外乎这二者之一,不过仔细读过iBatis解析XML的源码,我发现iBatis解析xml的代码很值得我们学习…… ...
2010-09-22 21:25:08 312
原创 commons email 1.1的一个Bug
commons email 1.1有个Bug,当发送的邮件中有附件时,邮件正文也会以附件形式(.txt文件或者.html文件)发送,不过还好,这个Bug在1.2中得到修复,升级1.2就OK啦! ...
2010-09-20 13:55:28 136
原创 公司的一道考试题算法分析——大数据量整数排序
题目大意:移动公司需要对已经发放的所有139段的号码进行统计排序,已经发放的139号码段的文件都存放在一个文本文件中(原题是放在两个文件中),一个号码一行,现在需要将文件里的所有号码进行排序,并写入到一个新的文件中;号码可能会有很多,最多可能有一亿个不同的号码(所有的139段号码),存入文本文件中大概要占1.2G的空间;jvm最大的内存在300以内,程序要考虑程序的可执行性及效率;只能使用...
2010-09-18 21:48:51 286
Servlet 3.0新特性——文件上传接口
Servlet 3.0之前的版本中,文件上传是个挺让人头疼的问题,虽然有第三方框架来实现,但使用也还是比较麻烦,在Servlet 3.0中,这些问题将不复存在,Servlet 3.0对文件上传提供了直接支持,配合Servlet 3.0中基于Annotations的配置,大大简化上传件的操作。今天做了个小demo,测试了写Servlet 3.0的文件上传功能。 1.写文件上传的服务端(Se...
2010-07-28 10:43:38 425
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人