过程:
首先模拟登录(如果需要)
其次
1、发送HttpRequest请求。
2、接收HttpResponse返回的结果。得到特定页面的html源文件。3、取出包含数据的那一部分源码。
4、根据html源码生成HtmlDocument,循环取出数据。(先前第一反应是正则匹配呢)
5、写入数据库。
解析HTML准备使用HTML PARSER.
这是个例子。介绍了他的几方面用途。
1.解析HTML
2.读写文件和内存对象功能
3居然还包括获抓取数据功能,取某个URL的内容。
http://blog.163.com/xyz_1112/blog/static/386944022011329112747396/
待使用后参考官方文档相信有更多理解
以前出版及金融相关领域的IT,很多很多基于XML的工作(2年),以及SOAP WEBSERVICE(1年)。
现在做互联网产品多用到json以及基于REST的webservice,忍不住要比较一下
1.xml vs json :与XML一样,JSON也是基于文本的,且它们都使用Unicode编码,同样具有可读性。XML比较适合于标记文档,而JSON却更适合于实时数据交换处理
2.soap vs rest: rest的设计遵循 CRUD原则,正如数据库对数据的增删改查,rest对网络上每个URL定义的资源进行增上改查。通过对不同粒度的资源的CRUD操作的逻辑组合,网络开始“互动”起来,web 2.0起来