写在前面的:
最近帮一人朋友写一个快递订单查询的软件,先在网上找各种API接口,好多都是要花钱购买服务才行,后来看到一个新网站“十颗心”不要钱的(估计是在推广期)。
按这个写好软件之后,朋友发现有一些信息没有。就打开了DHL官网给我看需要哪些东西。我才想到怎么不自己去爬呢?后面开始了探索之路。
大神:http://blog.csdn.net/never_cxb/article/details/50527205
爬虫的基本思路如下
1. 根据 Url 获取相应页面的 Html 代码 http://blog.csdn.net/wangxy799/article/details/50563010
2. 利用正则匹配或者 Jsoup 等库解析 Html 代码,提取需要的内容 http://blog.csdn.net/wangxy799/article/details/50598927
3. 将获取的内容持久化到数据库中
4. 处理好中文字符的编码问题,可以采用多线程提高效率