0、爬虫

一、http

当⽤户在地址输⼊了⽹址 发送⽹络请求的过程是什么

1、http的请求⽅式
(1)get请求
优点: ⽐较便捷
缺点:不安全;明⽂;参数的⻓度有限制

(2)post请求
⽐较安全;数据整体没有限制;上传⽂件

(3)put(不完全的)
(4)delete(删除⼀些信息)

2、head(请求头)
发送⽹络请求(需要带⼀定的数据给服务器不带数据也可以)
请求头⾥⾯requestheader
返回数据:response
1)Accept:⽂本的格式
2)Accept-Encoding:编码格式
3)Connection:⻓链接 短链接
4)Cookie:验证⽤的
5)Host:域名
6)Referer:标志从哪个⻚⾯跳转过来的

7)User-Agent:浏览器和⽤户的信息

 

二、爬⾍⼊⻔:

使⽤代码模拟⽤户 批量的发送⽹络请求 批量的获取数据
1、爬⾍的价值:
(1)买卖数据(⾼端的领域价格特别贵

(2)数据分析:出分析报告
(3)流量
(4)指数阿⾥指数,百度指数


2、合法性:灰⾊产业
政府没有法律规定爬⾍是违法的,也没有法律规定爬⾍是合法的
公司概念:公司让你爬数据库(窃取商业机密)责任在公司


3、爬⾍可以爬取所有东⻄?

(不是)爬⾍只能爬取⽤户能访问到的数据
爱奇艺的视频(vip⾮vip)
(1)普通⽤户 只能看⾮vip 爬取⾮vip的的视频
(2)vip 爬取vip的视频
(3)普通⽤户想要爬取vip视频(⿊客)

4、爬⾍的分类

(1)通⽤爬⾍
使⽤搜索引擎:百度 ⾕歌 360 雅⻁ 搜狗
优势:开放性 速度快
劣势:⽬标不明确
返回内容:基本上%90是⽤户不需要的
不清楚⽤户的需求在哪⾥


(2)聚焦爬⾍(学习)
⽬标明确
对⽤户的需求⾮常精准
返回的内容很固定
增量式:翻⻚:从第⼀⻚请求到最后⼀⻚

(3)Deep 深度爬⾍:

静态数据:html css
动态数据:js代码,加密的js

robots:是否允许其他爬⾍(通⽤爬⾍)爬取某些内容
聚焦爬⾍不遵守robots
爬⾍和反爬做⽃争:资源对等 胜利的永远是爬⾍

5、爬⾍的⼯作原理:
(1)确认你抓取⽬标的url是哪⼀个(找)
(2)使⽤python代码发送请求获取数据(java Go)
(3)解析获取到的数据(精确数据),找到新的⽬标(url)回到第⼀步(⾃动化)
(4)数据持久化

6、python3(原⽣提供的模块):urlib.rquest:
(1)、urlopen :
1)、返回response对象
2)、response.read()
3)、bytes.decode("utf-8")
(2)get:传参
汉字报错 :解释器ascii没有汉字,url汉字转码
(3)post
(4)handle处理器的⾃定义
(5)urlError

 

接下来将的知识点:
request(第三⽅)
数据解析:xpath bs4
数据存储

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
你好!如果你是 Python 爬虫方面的初学者,我可以给你一些基础的指导。首先,你需要了解一些基本的网络知识和 HTML 结构的基础知识。接下来,你可以学习使用 Python 的 requests 和 BeautifulSoup 库来进行网页内容的获取和解析。 下面是一些步骤和资源,可以帮助你入门爬虫: 1. 安装 Python 和相应的库:首先,确保你已经安装了 Python,并且了解如何使用 pip 或其他包管理器来安装第三方库。你可以在官方网站 https://www.python.org/ 上下载最新版本的 Python。使用 pip 安装 requests 和 BeautifulSoup 库:`pip install requests beautifulsoup4` 2. 学习网络基础知识:了解 HTTP 请求和响应的基本结构,包括请求头、响应头、状态码等。这将帮助你理解爬虫过程中的网络交互。 3. 学习使用 requests 库发送 HTTP 请求:requests 是一个常用的 Python 库,用于发送 HTTP 请求。你可以学习如何发送 GET 和 POST 请求,如何设置请求头和参数等。 4. 学习使用 BeautifulSoup 库解析 HTML:BeautifulSoup 是一个用于解析 HTML 的库,可以帮助你提取网页中的数据。学习如何使用它来解析 HTML 标签、提取文本内容和属性。 5. 实践练习:尝试编写一些简单的爬虫程序,从一些简单的网页中提取数据。可以从一些静态网页开始,逐渐尝试处理动态网页和登录鉴权等复杂情况。 6. 学习反爬虫技术和合法爬虫的规范:了解一些常见的反爬虫策略和技术,以及合法爬虫的规范,遵守网站的爬虫协议(robots.txt)。 这只是一个入门指南,爬虫是一个广阔而复杂的领域,你可以根据自己的需求和兴趣进一步学习。希望对你有所帮助!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值