学习爬虫心得体会

什么是爬虫:使用编程语言所编写的一个用于爬取Web或Appd数据的应用程序。爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。爬虫的基本流程:1、导入两个库,一个requests用于请求,..
摘要由CSDN通过智能技术生成

 什么是爬虫:使用编程语言所编写的一个用于爬取Web或Appd数据的应用程序。

爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

怎么爬取数据:
1、找到要爬取的目标网站、发起请求
2、分析URL是如何变化的和提取有用的URL
3、提取有用的数据
爬虫的基本流程:获取网页、解析网页、提取数据、保存数据。

爬虫基础

一、HTTP与HTTPS
●HTTP协议(全称是HyperText Transfer Plrotocal ),中文意思是超文本传输协议,是一种发布和接收HT ML (HyperText Markuup Language) 页面的方法。服务器端口号为80端口。
●HTTPS协议(全称是Hyper Text Transfer Protocol over SecureSocket Layer),是HTTP协议的加密版本,在HTTP 下加入了SSL层,服务器端口号是443。

二、URL与URI
●URL(网址)是Uriform Resource Locator的简写, 统一资源定位符。一个URL由以下几部分组成:

以东方财富网为例:

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值