0.2、爬虫的简介

最新推荐文章于 2024-11-23 00:00:00 发布

转载最新推荐文章于 2024-11-23 00:00:00 发布 · 155 阅读

·

0

·

python爬虫专栏收录该内容

11 篇文章

订阅专栏

爬⾍⼊⻔:

使⽤代码模拟⽤户批量的发送⽹络请求批量的获取数据
1、爬⾍的价值:
（1）买卖数据(⾼端的领域价格特别贵

（2）数据分析:出分析报告
（3）流量
（4）指数阿⾥指数,百度指数

2、合法性:灰⾊产业
政府没有法律规定爬⾍是违法的,也没有法律规定爬⾍是合法的
公司概念:公司让你爬数据库(窃取商业机密)责任在公司

3、爬⾍可以爬取所有东⻄?

(不是)爬⾍只能爬取⽤户能访问到的数据
爱奇艺的视频(vip⾮vip)
（1）普通⽤户只能看⾮vip 爬取⾮vip的的视频
（2）vip 爬取vip的视频
（3）普通⽤户想要爬取vip视频(⿊客)

4、爬⾍的分类

(1)通⽤爬⾍
使⽤搜索引擎:百度⾕歌 360 雅⻁搜狗
优势:开放性速度快
劣势:⽬标不明确
返回内容:基本上%90是⽤户不需要的
不清楚⽤户的需求在哪⾥

(2)聚焦爬⾍(学习)
⽬标明确
对⽤户的需求⾮常精准
返回的内容很固定
增量式:翻⻚:从第⼀⻚请求到最后⼀⻚

(3)Deep 深度爬⾍:

静态数据:html css
动态数据:js代码,加密的js

robots:是否允许其他爬⾍(通⽤爬⾍)爬取某些内容
聚焦爬⾍不遵守robots
爬⾍和反爬做⽃争:资源对等胜利的永远是爬⾍

5、爬⾍的⼯作原理:
（1）确认你抓取⽬标的url是哪⼀个(找)
（2）使⽤python代码发送请求获取数据(java Go)
（3）解析获取到的数据(精确数据)，找到新的⽬标(url)回到第⼀步(⾃动化)
（4）数据持久化

6、python3(原⽣提供的模块):urlib.rquest:
(1)、urlopen :
1)、返回response对象
2)、response.read()
3)、bytes.decode("utf-8")
(2)get:传参
汉字报错 :解释器ascii没有汉字,url汉字转码
(3)post
(4)handle处理器的⾃定义
(5)urlError

接下来将的知识点:
request(第三⽅)
数据解析:xpath bs4
数据存储

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。