python爬虫学习
python爬虫学习的相关笔记
amazing_zyy
这个作者很懒,什么都没留下…
展开
-
第一章:爬虫基础简介
第一章:爬虫基础简介 1.爬虫使用场景分类 通用爬虫: 爬取系统重要组成部分。抓取的是一整张页面数据。 聚焦爬虫: 是建立在通用爬虫的基础上,抓取的是页面中特定的局部内容 增量式爬虫: 检测网站中数据更新的情况,智慧抓取网站中最新更新出来的数据 2.爬虫的矛与盾 3.反爬机制 门户网站,可以通过指定响应的策略或者技术手段,防止爬虫程序进行网站数据的爬取 4.反反爬策略 破解门户网站具备的反爬机制,从而可以获取门户网站数据 5. robots.txt协议 (一种反爬机制) 规定网站中那些数据可以爬取那些数原创 2020-08-16 21:17:03 · 129 阅读 · 0 评论 -
第二章:requests模块
第二章:requests模块 1.简介 基于网络请求的模块,功能强大,简单便捷,效率较高 2.作用 模拟浏览器发送请求 3.使用流程 指定url 发起请求 获取响应数据 响应数据的数据存储 4.第一个简单案例: 爬取搜狗首页数据 import requests #爬取搜狗首页的页面数据 if __name__ == '__main__': #step1:指定url url = 'http://www.sougou.com/' #step2:发起get请求 #get方法会原创 2020-08-16 21:15:07 · 311 阅读 · 0 评论 -
第三章:数据解析---聚焦爬虫
文章目录第三章:数据解析---聚焦爬虫注:本页示例所用的test.html文档一、编码流程二、数据解析分类三、数据解析原理概述四、bs4要点1.bs4数据解析原理:2.相关属性:五、xpath要点1.xpath解析原理:2.实例化一个etree对象(1)导入etree对象(2)实例化一个etree对象(3)xpath表达式: 第三章:数据解析—聚焦爬虫 爬取页面指定内容 注:本页示例所用的test.html文档 <!--test.html--> <html lang="en"> &l原创 2020-08-16 21:08:29 · 141 阅读 · 0 评论