网页数据抓取-接前文模拟登录

最新推荐文章于 2024-11-10 13:43:20 发布

buaageng

最新推荐文章于 2024-11-10 13:43:20 发布

阅读量545

点赞数

文章标签： webservice rest html json 数据库 soap

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/buaageng/article/details/6679764

版权

过程：

首先模拟登录（如果需要）

其次

1、发送HttpRequest请求。

　　2、接收HttpResponse返回的结果。得到特定页面的html源文件。
　　3、取出包含数据的那一部分源码。
　　4、根据html源码生成HtmlDocument，循环取出数据。（先前第一反应是正则匹配呢）

　　5、写入数据库。

解析HTML准备使用HTML PARSER.

这是个例子。介绍了他的几方面用途。

1.解析HTML

2.读写文件和内存对象功能

3居然还包括获抓取数据功能，取某个URL的内容。

http://blog.163.com/xyz_1112/blog/static/386944022011329112747396/

待使用后参考官方文档相信有更多理解

以前出版及金融相关领域的IT，很多很多基于XML的工作（2年），以及SOAP WEBSERVICE（1年）。

现在做互联网产品多用到json以及基于REST的webservice，忍不住要比较一下

1.xml vs json ：与XML一样，JSON也是基于文本的，且它们都使用Unicode编码，同样具有可读性。XML比较适合于标记文档，而JSON却更适合于实时数据交换处理

2.soap vs rest： rest的设计遵循 CRUD原则，正如数据库对数据的增删改查，rest对网络上每个URL定义的资源进行增上改查。通过对不同粒度的资源的CRUD操作的逻辑组合，网络开始“互动”起来，web 2.0起来

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。