![](https://img-blog.csdnimg.cn/20200816211849926.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫学习
python爬虫学习的相关笔记
amazing_zyy
这个作者很懒,什么都没留下…
展开
-
第一章:爬虫基础简介
第一章:爬虫基础简介1.爬虫使用场景分类通用爬虫:爬取系统重要组成部分。抓取的是一整张页面数据。聚焦爬虫:是建立在通用爬虫的基础上,抓取的是页面中特定的局部内容增量式爬虫:检测网站中数据更新的情况,智慧抓取网站中最新更新出来的数据2.爬虫的矛与盾3.反爬机制门户网站,可以通过指定响应的策略或者技术手段,防止爬虫程序进行网站数据的爬取4.反反爬策略破解门户网站具备的反爬机制,从而可以获取门户网站数据5. robots.txt协议 (一种反爬机制)规定网站中那些数据可以爬取那些数原创 2020-08-16 21:17:03 · 124 阅读 · 0 评论 -
第二章:requests模块
第二章:requests模块1.简介基于网络请求的模块,功能强大,简单便捷,效率较高2.作用模拟浏览器发送请求3.使用流程指定url发起请求获取响应数据响应数据的数据存储4.第一个简单案例:爬取搜狗首页数据import requests#爬取搜狗首页的页面数据if __name__ == '__main__': #step1:指定url url = 'http://www.sougou.com/' #step2:发起get请求 #get方法会原创 2020-08-16 21:15:07 · 304 阅读 · 0 评论 -
第三章:数据解析---聚焦爬虫
文章目录第三章:数据解析---聚焦爬虫注:本页示例所用的test.html文档一、编码流程二、数据解析分类三、数据解析原理概述四、bs4要点1.bs4数据解析原理:2.相关属性:五、xpath要点1.xpath解析原理:2.实例化一个etree对象(1)导入etree对象(2)实例化一个etree对象(3)xpath表达式:第三章:数据解析—聚焦爬虫爬取页面指定内容注:本页示例所用的test.html文档<!--test.html--><html lang="en">&l原创 2020-08-16 21:08:29 · 136 阅读 · 0 评论