什么是爬虫:使用编程语言所编写的一个用于爬取Web或Appd数据的应用程序。
爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
怎么爬取数据:
1、找到要爬取的目标网站、发起请求
2、分析URL是如何变化的和提取有用的URL
3、提取有用的数据
爬虫的基本流程:获取网页、解析网页、提取数据、保存数据。
爬虫基础
一、HTTP与HTTPS
●HTTP协议(全称是HyperText Transfer Plrotocal ),中文意思是超文本传输协议,是一种发布和接收HT ML (HyperText Markuup Language) 页面的方法。服务器端口号为80端口。
●HTTPS协议(全称是Hyper Text Transfer Protocol over SecureSocket Layer),是HTTP协议的加密版本,在HTTP 下加入了SSL层,服务器端口号是443。
二、URL与URI
●URL(网址)是Uriform Resource Locator的简写, 统一资源定位符。一个URL由以下几部分组成:
以东方财富网为例: