爬虫 基础理论知识(一)

本文介绍了爬虫的基础知识,包括爬虫的背景、定义、网页的URL特性、爬虫基本步骤和数据用途。讲解了爬虫的分类,如通用爬虫和聚焦爬虫,并涉及到七层协议、HTTP协议、URL组成、请求方式及其区别。同时提到了常见的请求头参数和响应状态码,以及爬虫可能涉及的编程语言。
摘要由CSDN通过智能技术生成

一、爬虫的背景知识

  • 企业产生的数据:大的公司会根据用户的行为记录数据,数据会被大公司利用,用来做数据的分析
    数据平台的数据:数据公司将数据包装成API形式,贩卖数据
    政府和机构的数据:政府公开的一些数据
    数据咨询平台的数据:为企业和公共机构提供有关战略、组织、运营和技术方面的咨询

二、什么是爬虫?

  • 就是一段自动抓取互联网数据的程序或脚本

三、网页的三大特性

  • 1.每一个网页都有自己唯一的URL地址(统一资源定位符)
  • 2.网页都是通过HTML(超文本)来展示数据的
  • 3.网页是通过HTTP/HTTPS(超文本传输协议)来传输html的

四、爬虫最基本的步骤

  • 1.寻找目标url,发起请求
  • 2.获取请求的响应结果,分析响应结果
  • 3.从响应结果中提取数据
    • a.第一部分,从网页中提取的目标数据
    • b.如果存在新的url地址,则提取,继续发起请求
  • 4.所有的目标url全部请求完毕,爬虫结束

五、数据的用途

  • 1.可以爬取数据,写自己的网站
  • 2.搜索引擎
  • 3.购物助手
  • 4.日常数据的基本分析(知乎数据冰山专栏)

六、课外知识

  • 做爬虫的语言有&

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值