爬虫系列笔记一

最新推荐文章于 2024-10-01 20:02:09 发布

想offer的第n天

最新推荐文章于 2024-10-01 20:02:09 发布

阅读量141

点赞数

分类专栏： python之爬虫文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/h91er/article/details/127326718

版权

python之爬虫专栏收录该内容

13 篇文章 1 订阅

订阅专栏

什么是爬虫？
解释1： 通过一个程序，根据url1进行爬取网页，获取有用信息。
解释2： 使用程序模拟浏览器，去向服务器发送请求，获取响应信息。

爬虫分类

- 通用爬虫
功能：
访问网页->爬取数据->数据存储->数据处理->提供检索服务
robots协议:
一个约定俗成的协议，添加robots.txt文件，来说明本站哪些数据不可以被爬取，起不到限制作用，自己写的爬虫不需要遵守。
网站排名：
1. 根据PageRank算法值进行排名（参考个网站流量、点击率等指标）
2. 百度竞价排名
缺点：
1. 抓取的数据大多是无用的
2. 不能根据用户的需求来精准获取数据
- 聚焦爬虫
功能：
根据需求，实现爬虫程序，抓取需要数据。
设计思路：
1.确定要爬取的url
2.模拟浏览器通过http协议访问，获取服务器返回的html代码
3.解析html字符串
（下面这两种还没有接触到，学到后进行更新，尽请期待）
- 增量式爬虫
- 深层网络爬虫

反反爬手段

User-Agent:
User-Agent为用户代理，简称UA，他是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等
代理IP
1. 西词代理
2. 快代理
3. 高匿名、匿名、透明代理的区别
  1. 使用透明代理，对方服务器可以知道你使用了代理，也可以知道你的真实IP
  2. 使用匿名代理，对方服务器可以知道你使用了代理，但不知道你的真实IP
  3. 使用高匿名代理，对方服务器不知道你使用了代理，也不知道你的真实IP
验证码访问
打码平台
动态加载网页网站返回的是js数据，并不是网页的真实数据
selenium驱动真实的浏览器发送请求
数据加密
分析js代码

想offer的第n天

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

想offer的第n天 CSDN认证博客专家 CSDN认证企业博客

码龄4年

39: 原创

55万+: 周排名

40万+: 总排名

2万+: 访问

: 等级

415: 积分

8: 粉丝

11: 获赞

6: 评论

50: 收藏

私信

关注

热门文章

分类专栏

numpy 1篇
Matplotlib代码笔记 4篇
python之爬虫 13篇
大数据 1篇
python 3篇
编译原理 3篇
笔记 1篇
算法 1篇
题解 8篇
C++自学 1篇

最新评论

爬虫系列笔记九BeautifulSoup
m0_68470600: 谢谢！
爬虫系列笔记九BeautifulSoup
想offer的第n天: with open('caidan.txt','w',encoding='utf-8')as f: for i in name_list: f.write(i.string+'\n') 可以这样写
爬虫系列笔记九BeautifulSoup
m0_68470600: 请问最后怎么讲爬取到的菜单数据保存为txt到本地呀
爬虫post请求和get请求格式总结
想offer的第n天: 问题解决了xdm，主要是因为请求头中'Accept-Encoding': 'gzip, deflate, br',里面有br，这个的意思是向服务器端发送支持的压缩格式，但是我这边并不支持br压缩，所以对于接收到的br压缩的问件解码就会出现错误。
python库中方法调用
不吃西红柿丶: 笔落惊风雨，诗成泣鬼神！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。