爬虫_花_城的博客-CSDN博客

爬虫

关注

文章平均质量分 95

爬虫一般指网络爬虫。网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

关注数：文章数：4 文章阅读量：6591 文章收藏量：34

作者: 花_城

这个作者很懒，什么都没留下…

展开

爬虫框架：Scrapy 快速入门

文章目录一、Scrapy简介1.1 示例代码1.2 示例代码的运行流程二、安装Scrapy2.1 Ubuntu下安装2.2 Windows下安装2.3 Mac OS下安装三、Scrapy 快速入门3.1 创建 scrapy 项目3.2 编写 spider3.3 运行爬虫项目3.3.1 start_requests 方法的快捷方式3.4 数据提取3.4.1 提取名言和作者3.4.2 在 spider 中提取数据3.5 存储提取的数据3.6 追踪链接3.7 创建请求的快捷方式3.8 更多示例和模式3.9 使用

原创 2022-01-17 17:49:04 · 2952 阅读 · 1 评论
浏览器自动化：Selenium的使用

文章目录一、Selenium简介二、入门指南2.1 安装和使用驱动2.1.1 安装2.1.2 用驱动的三种方式2.2 打开和关闭浏览器2.3 浏览器操作2.4 获取浏览器信息2.5 代码与浏览器状态的同步2.5.1 显式等待2.5.2 隐式等待2.6 查找元素2.6.1 查找单个元素2.6.2 查找多个元素2.6.3 通过元素查找元素2.7 操作元素2.8 获取元素内容三、隐藏浏览器界面注意！本文中演示使用的编程语言为python，而浏览器为chrome。一、Selenium简介Selenium

原创 2022-01-16 16:54:53 · 1598 阅读 · 0 评论
解析HTML文档：Beautiful Soup4快速入门

文章目录一、Beautiful Soup4简介1.1 Beautiful Soup4简介1.2 Beautiful Soup4快速入门二、安装Beautiful Soup4和解析器2.1 安装Beautiful Soup42.2 安装解析器（可选）三、Beautiful Soup4进阶3.1 实例化BeautifulSoup对象3.2 Tag对象及其属性3.3 BeautifulSoup对象四、遍历文档树4.1 获取tag对象4.2 获取子节点4.3 获取tag内部的字符串4.4 获取父节点4.5 获取兄弟

原创 2022-01-15 17:43:20 · 1336 阅读 · 0 评论
爬虫的概念及requests库的使用

文章目录一、什么是爬虫1.1 爬虫1.2 反爬虫1.3 爬虫协议（Robots协议）二、requests库三、requests库快速入门3.1 pip安装requests3.2 发送请求3.3 传递参数3.4 响应内容3.4.1 二进制响应内容3.4.2 JSON响应内容3.5 原始响应内容3.6 定制请求头3.7 复杂的 POST 请求3.8 使用POST提交文件3.9 响应状态码3.10 响应头3.11 Cookie3.12 重定向与请求历史3.13 超时3.14 错误与异常一、什么是爬虫1.1 爬

原创 2022-01-14 18:02:02 · 705 阅读 · 0 评论

爬虫

作者: 花_城

爬虫框架：Scrapy 快速入门

浏览器自动化：Selenium的使用

解析HTML文档：Beautiful Soup4快速入门

爬虫的概念及requests库的使用