引言:随着大数据技术的发展,分布式储存和分布式计算,数据的价值在不断的挖掘,特别对于大量的网络数据,爬取网站数据内容,分析数据背后的隐藏价值,人工智能的背后就是需要海量的数据支持,这就是21世纪数据的价值所在!
1、网络爬虫基本流程:
1.1、发起请求:client通过HTTP库向目标站点发起请求Request等待服务器响应。
1.2、获取响应内容:server响应Response的内容就是页面的内容,类型有HTML,Json,二进制等。
1.3、解析内容:HTML可用正则表达式、网页解析库解析。Json可用直接转化为json对象解析。二进制数据,可用进一步保存或者处理。
1.4、保存数据:结构化的存储,可用保存为文本,保存至数据库,或者保存为特定格式的文件。