数据抓取其实从字面意思就知道它是抓取数据的,在互联网世界中,数据量是一个非常大的。。有时候靠人为去获取数据这是一个非常不明智的。尤其是你需要的数据来自很多不同的地方。
网络爬虫是是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。它主要抓取形式有两种:1种是抓取网页链接,通过url链接得到这个html页面中指定的链接,把这些链接存储起来,再依次以这些链接为源,再次爬取链接指向html页面中的链接。
基本原理是:由关键字指定的url把所有相关的html页面全抓下来(html即为字符串),然后解析html文本(通常是正则表达式或者现成工具包如jsoup)