网页数据抓取-接前文模拟登录

过程:

      首先模拟登录(如果需要)

其次

       1、发送HttpRequest请求。

  2、接收HttpResponse返回的结果。得到特定页面的html源文件。
  3、取出包含数据的那一部分源码。
  4、根据html源码生成HtmlDocument,循环取出数据。(先前第一反应是正则匹配呢)

  5、写入数据库。



解析HTML准备使用HTML PARSER.

这是个例子。介绍了他的几方面用途。

1.解析HTML

2.读写文件和内存对象功能

3居然还包括获抓取数据功能,取某个URL的内容。

http://blog.163.com/xyz_1112/blog/static/386944022011329112747396/

待使用后参考官方文档相信有更多理解


以前出版及金融相关领域的IT,很多很多基于XML的工作(2年),以及SOAP WEBSERVICE(1年)。

现在做互联网产品多用到json以及基于REST的webservice,忍不住要比较一下

1.xml vs json :与XML一样,JSON也是基于文本的,且它们都使用Unicode编码,同样具有可读性。XML比较适合于标记文档,而JSON却更适合于实时数据交换处理

2.soap vs rest:  rest的设计遵循 CRUD原则,正如数据库对数据的增删改查,rest对网络上每个URL定义的资源进行增上改查。通过对不同粒度的资源的CRUD操作的逻辑组合,网络开始“互动”起来,web 2.0起来


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值