python网络爬虫基础知识学习笔记

最新推荐文章于 2024-08-06 17:59:13 发布

Yohance0_0

最新推荐文章于 2024-08-06 17:59:13 发布

阅读量250

点赞数

分类专栏： Python 文章标签： python爬虫

本文链接：https://blog.csdn.net/weixin_37411471/article/details/88954755

版权

Python 专栏收录该内容

13 篇文章 2 订阅

订阅专栏

1、链接url
2、robots.txt允许爬虫爬取哪些，不允许爬取哪些
3、哪些语言可以做爬虫
（1）php 多线程、多进程支持不好
（2）java 最主要的竞争对手，代码臃肿，重构成本大
（3）C、C++能力体现，良好选择
（4）python 学习成本低，支持模块多，scrapy
4、通用爬虫
（1）过程
抓取网页——采集数据——数据处理——提供检索服务
（2）通用爬虫如何抓取网页
主动提交url
设置友情链接
百度会和DNS合作商合作，抓取新网站
（3）检索排名
竞价排名，根据pagerank值（访问量、点击量（SEO））
5、聚焦爬虫
（1）根据特定的需求，抓取指定的数据
（2）思路：代替浏览器上网
（3）网页特点：网页都有自己唯一的url
网页内容全是HTML
使用http或者https协议
（4）爬取步骤：给一个url
写程序，模拟浏览器访问url
解析内容，提取数据
（5）解析网页内容：正则表达式、BS4、XPath、jsonpath
（6）涉及到动态html：selenium+phantomjs、chromeheadless
（7）scrapy框架：高性能框架使用
（8）scrapy-redis组件 Redis、分布式爬虫
6、HTTP与HTTPS协议的区别
（1）http是超文本传输协议，信息是明文传输，https是具有安全性的ssl加密传输协议
（2）http与https使用完全不同的连接方式，用的端口也不一样，前者为80，后者为443
（3）http是无状态的连接很简单，由ssl+http构建可进行加密性
7、http响应永远是客户端发送请求，服务器回送响应
工作流程：
（1）建立连接
（2）建立连接后，客户机发送一个请求给服务器
（3）服务接收到请求后，给予相关信息
（4）客户端接收服务器返回信息显示在显示屏上
8、http常用信息头
accept、accept-charest、accept-encoding、accept-language
9、响应内容
常见响应头：location、server