1、链接url
2、robots.txt允许爬虫爬取哪些,不允许爬取哪些
3、哪些语言可以做爬虫
(1)php 多线程、多进程支持不好
(2)java 最主要的竞争对手,代码臃肿,重构成本大
(3)C、C++能力体现,良好选择
(4)python 学习成本低,支持模块多,scrapy
4、通用爬虫
(1)过程
抓取网页——采集数据——数据处理——提供检索服务
(2)通用爬虫如何抓取网页
主动提交url
设置友情链接
百度会和DNS合作商合作,抓取新网站
(3)检索排名
竞价排名,根据pagerank值(访问量、点击量(SEO))
5、聚焦爬虫
(1)根据特定的需求,抓取指定的数据
(2)思路:代替浏览器上网
(3)网页特点:网页都有自己唯一的url
网页内容全是HTML
使用http或者https协议
(4)爬取步骤:给一个url
写程序,模拟浏览器访问url
解析内容,提取数据
(5)解析网页内容:正则表达式、BS4、XPath、jsonpath
(6)涉及到动态html:selenium+phantomjs、chromeheadless
(7)scrapy框架:高性能框架使用
(8)scrapy-redis组件 Redis、分布式爬虫
6、HTTP与HTTPS协议的区别
(1)http是超文本传输协议,信息是明文传输,https是具有安全性的ssl加密传输协议
(2)http与https使用完全不同的连接方式,用的端口也不一样,前者为80,后者为443
(3)http是无状态的连接很简单,由ssl+http构建可进行加密性
7、http响应永远是客户端发送请求,服务器回送响应
工作流程:
(1)建立连接
(2)建立连接后,客户机发送一个请求给服务器
(3)服务接收到请求后,给予相关信息
(4)客户端接收服务器返回信息显示在显示屏上
8、http常用信息头
accept、accept-charest、accept-encoding、accept-language
9、响应内容
常见响应头:location、server
python网络爬虫基础知识学习笔记
最新推荐文章于 2024-08-06 17:59:13 发布