Python爬虫
LeicyII
关注我,为你列出每个常用知识点的细节,让你搜索使用起来清新无废话,日常更新
展开
-
007Python-Scrapy爬虫框架
一、Scrapy爬虫框架介绍 Scrapy是一个快速功能强大的网络爬虫框架 Scrapy 不是一个函数功能库,而是一个爬虫框架 爬虫框架是实现爬虫功能的一个软件结构和功能组合集合。 爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。 二、Scrapy爬虫框架解析 1、Scrapy爬虫框架结构 Engine: 1.控制所有模块之间的数据流 2.根据条件触发事件 不需要用户修改 Downloader: 1.根据请求下载网页 不需要用户修改 Scheduler: 1.对所有爬虫请求进行调度管理原创 2021-03-06 16:55:14 · 236 阅读 · 0 评论 -
006Python-Re库入门(正则表达式)
一、正则表达式的概念: 正则表达式是用简洁表达一组字符串的表达式。 正则表达式是一种通用的字符串表达式。 最主要英语在字符串匹配中 二、正则表达式的语法: 1.正则表达式的常用操作符 操作符 说明 实例 . 表示任何单个字符 [ ] 字符集,对单个字符给出取值范围 [abc]表示a、b、c,[a-z]表示a到z单个字符 [^ ] 非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符 * 前一个字符0次或无限次扩展 abc* 表示 ab,abc,abc原创 2021-03-06 15:20:49 · 274 阅读 · 4 评论 -
005Python-信息标记与提取方法
一、 信息标记的三种形式: XML <img src = “china.jpg” size = ‘10’/> 空元素的缩写形式 <name/> <!- -This is a comment, very useful --> JSON 有类型的键值对 key:value,key需要加"" 当value有多组的时候,用[,]组织 键值对嵌套用{ , } 无类型的键值对key:value,key只能是字符串,不需要加" " YAML 缩进表原创 2021-03-05 18:17:04 · 118 阅读 · 0 评论 -
003Python-Requests库网络爬取实战
代码暂空原创 2021-03-05 17:30:34 · 109 阅读 · 0 评论 -
002Python-Robot协议
Robots Exclusion Standard 作用:网站告知网络爬虫哪些页面可以爬取,哪些不行 形式:在网站目录下的robots.txt 案例: 百度Robots qqRobots 网络爬虫,盗亦有道原创 2021-03-05 17:25:56 · 118 阅读 · 0 评论 -
Python爬虫
Python爬虫之入门了解1.什么是爬虫2.浏览网页的过程3.URL的含义4.环境的配置5.爬虫的重要思想 爬虫之入门了解 1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯。如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中它发现一条道路,其实拒收指向网页的超链接,...原创 2020-01-05 14:22:20 · 269 阅读 · 0 评论