爬虫那些事儿
文章平均质量分 89
详析介绍关于爬虫的每一个知识点,其中不乏经典案例,以实战熟悉爬虫。
Python@达人
人生苦短,唯有Python
展开
-
爬虫基础(9)数据存储之文件存储
文章目录一. TXT 文本存储1. 基本实例2. 打开方式二. JSON 文件存储1. 基本实例2. JSON 基础知识3. 写入 JSON4. 读取 JSON三. CSV 文件存储1. 基本实例2. 写入 CSV3. 读取 CSV一. TXT 文本存储1. 基本实例首先,可以用 requests 将网页源代码获取下来,然后使用 BeautifulSoup 解析库解析,完整代码如下:import requestsfrom bs4 import BeautifulSoupdef getHtml原创 2021-03-21 22:13:54 · 594 阅读 · 0 评论 -
爬虫基础(8)网页解析之pyquery库
文章目录一. pyquery库简介二. 安装pyquery库三. pyquery库详析1. 初始化(1)字符串初始化(2)URL初始化(3)文件初始化2. 基本CSS选择器3. 查找节点(1)子节点(2)父节点(3)兄弟节点4. 遍历5. 获取信息(1)获取属性(2)获取文本6. 节点操作(1)addClass 和 removeClass(2)attr、text 和 html(3)remove()7. 伪类选择器一. pyquery库简介PyQuery库也是一个非常强大又灵活的网页解析库,前端基础较好的原创 2021-03-21 22:10:42 · 487 阅读 · 0 评论 -
爬虫基础(7)网页解析之Beautiful Soup库
文章目录一. Beautiful Soup库简介二. 安装beautifulsoup库三. Beautiful Soup库的四个对象类1. Tag2. NavigableString3. BeautifulSoup4. Comment四. Beautiful Soup库详析(一)解析器(二)创建Beautiful Soup对象(三)节点选择器1. 选择元素2. 提取信息3. 嵌套选择4. 关联选择(四)方法选择器1. 获取子节点与子孙节点(1)find_all()(2)find()2. 获取父节点与祖先节点原创 2021-03-21 22:04:26 · 1246 阅读 · 2 评论 -
爬虫基础(6)网页解析之XPath库
文章目录一. XPath库简介二. 安装lxml库三. XPath库详析1. XPath常用的规则2. 选取所有节点3. 选取子节点4. 选取父节点5. 以属性匹配6. 获取文本7. 获取属性8. 属性多值匹配9. 多属性匹配10. 按序选择11. 节点轴选择一. XPath库简介XPath 全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索。所以在做爬虫时,我们完全可以使用原创 2021-03-21 22:00:31 · 472 阅读 · 0 评论 -
爬虫基础(5)网页解析之正则表达式
文章目录一. 什么是正则表达式二. 正则表达式的基础知识(一)原子1. 普通字符2. 特殊字符和元字符3. 非打印字符4. 通用字符5. 原子表(二)元字符1. 任意匹配元字符2. 边界限制元字符3. 限定符4. 模式选择符5. 模式单元符(三)修饰符(四)贪婪模式与非贪婪模式三. 正则表达式常见的函数1. match()2. search()3. findall()4. compile()5. sub()四. 实例——爬取猫眼电影排行一. 什么是正则表达式什么是正则表达式?简单来说,正则表达式是一些原创 2021-03-21 21:58:13 · 1187 阅读 · 0 评论 -
爬虫基础(4)发送请求之requests库的使用
文章目录一. 什么是Requests库二. 安装Requests库三. Requests库的基本应用(一)发送请求1. 实例引入2. GET请求(1)最基本的GET请求(2)带参数的GET请求(3)解析JSON(4)抓取二进制数据(5)添加headers3. POST请求(二)接收响应1. 响应信息2. 响应状态码四. Requests库的高级应用(一)文件上传(二)Cookies1. 获取 Cookies2. 应用实例(三)维持会话、模拟登录(四)SSL证书验证(五)代理设置(六)超时设置(七)身份认证(原创 2021-03-21 21:53:47 · 2237 阅读 · 0 评论 -
爬虫基础(3)发送请求之urllib库与urllib3库的使用
文章目录一. urllib库与urllib3库的简介(一)什么是Urllib库(二)什么是urllib3库(三)urllib库与urllib3库的关系二. urllib库模块详析(一)发送请求1. urlopen方法2. Request对象3. 高级用法(1)使用Cookie(2)使用代理(二)解析链接1. 链接分段与合并2. 链接编码与解码3. 链接参数转换(三)处理异常1. URLError2. HTTPError3. 异常处理优化(四)分析Robots协议1. robots.txt文件是什么2. ro原创 2021-03-18 18:03:47 · 1829 阅读 · 0 评论 -
Python网络爬虫系列文章导航(建议收藏)
下面是我所发布所有关于 Python 爬虫系列的文章导航,便于学习爬虫的同道进行浏览和学习。爬虫基础爬虫基础(1)什么是网络爬虫爬虫进阶爬虫经典案例上述爬虫文章导航我将在后面不断进行更新,有什么不对的地方欢迎大家留言提出!...原创 2021-03-18 17:05:21 · 204 阅读 · 0 评论 -
爬虫基础(2)网络爬虫的实现原理与技术
文章目录一. 爬虫技术实现原理二. 发送请求1. 请求行2. 请求头3. 空行4. 请求体三. 获取响应内容1. 响应行2. 响应头3. 空行4. 响应体四. 解析网页内容1. 提取链接2. 提取资源一. 爬虫技术实现原理Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统,比如 Google、Baidu。由此可见Web 网络爬虫系统在搜索引擎中的重要性。网页中除了包含供用户阅读的文字信息外,还包含一些超链接信息。Web原创 2021-03-18 16:51:06 · 2403 阅读 · 0 评论 -
爬虫基础(1)什么是网络爬虫
文章目录一. 认识网络爬虫二. 网络爬虫的组成三. 网络爬虫的类型1. 通用网络爬虫2. 聚焦网络爬虫3. 增量式网络爬虫4. 深层网络爬虫(1)静态网页(2)深层页面和表层页面(3)网络爬虫表单填写四. 网络爬虫的用途一. 认识网络爬虫说起网络爬虫,人们常常会用这样一个比喻:如果把互联网比喻成一张网,那么网络爬虫就可以认为是一个在网上爬来爬去的小虫子,它通过网页的链接地址来寻找网页,通过特定的搜索算法来确定路线,通常从网站的某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地原创 2021-03-18 16:44:10 · 2543 阅读 · 0 评论