网络爬虫介绍(待完善)

写在前面的:

最近帮一人朋友写一个快递订单查询的软件,先在网上找各种API接口,好多都是要花钱购买服务才行,后来看到一个新网站“十颗心”不要钱的(估计是在推广期)。

按这个写好软件之后,朋友发现有一些信息没有。就打开了DHL官网给我看需要哪些东西。我才想到怎么不自己去爬呢?后面开始了探索之路。

大神:http://blog.csdn.net/never_cxb/article/details/50527205

爬虫的基本思路如下 
1. 根据 Url 获取相应页面的 Html 代码  http://blog.csdn.net/wangxy799/article/details/50563010
2. 利用正则匹配或者 Jsoup 等库解析 Html 代码,提取需要的内容 http://blog.csdn.net/wangxy799/article/details/50598927
3. 将获取的内容持久化到数据库中 

4. 处理好中文字符的编码问题,可以采用多线程提高效率



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值