爬虫
文章平均质量分 95
爬虫一般指网络爬虫。网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
花_城
这个作者很懒,什么都没留下…
展开
-
爬虫框架:Scrapy 快速入门
文章目录一、Scrapy简介1.1 示例代码1.2 示例代码的运行流程二、安装Scrapy2.1 Ubuntu下安装2.2 Windows下安装2.3 Mac OS下安装三、Scrapy 快速入门3.1 创建 scrapy 项目3.2 编写 spider3.3 运行爬虫项目3.3.1 start_requests 方法的快捷方式3.4 数据提取3.4.1 提取名言和作者3.4.2 在 spider 中提取数据3.5 存储提取的数据3.6 追踪链接3.7 创建请求的快捷方式3.8 更多示例和模式3.9 使用原创 2022-01-17 17:49:04 · 2952 阅读 · 1 评论 -
浏览器自动化:Selenium的使用
文章目录一、Selenium简介二、入门指南2.1 安装和使用驱动2.1.1 安装2.1.2 用驱动的三种方式2.2 打开和关闭浏览器2.3 浏览器操作2.4 获取浏览器信息2.5 代码与浏览器状态的同步2.5.1 显式等待2.5.2 隐式等待2.6 查找元素2.6.1 查找单个元素2.6.2 查找多个元素2.6.3 通过元素查找元素2.7 操作元素2.8 获取元素内容三、隐藏浏览器界面注意!本文中演示使用的编程语言为python,而浏览器为chrome。一、Selenium简介Selenium原创 2022-01-16 16:54:53 · 1598 阅读 · 0 评论 -
解析HTML文档:Beautiful Soup4快速入门
文章目录一、Beautiful Soup4简介1.1 Beautiful Soup4简介1.2 Beautiful Soup4快速入门二、安装Beautiful Soup4和解析器2.1 安装Beautiful Soup42.2 安装解析器(可选)三、Beautiful Soup4进阶3.1 实例化BeautifulSoup对象3.2 Tag对象及其属性3.3 BeautifulSoup对象四、遍历文档树4.1 获取tag对象4.2 获取子节点4.3 获取tag内部的字符串4.4 获取父节点4.5 获取兄弟原创 2022-01-15 17:43:20 · 1336 阅读 · 0 评论 -
爬虫的概念及requests库的使用
文章目录一、什么是爬虫1.1 爬虫1.2 反爬虫1.3 爬虫协议(Robots协议)二、requests库三、requests库快速入门3.1 pip安装requests3.2 发送请求3.3 传递参数3.4 响应内容3.4.1 二进制响应内容3.4.2 JSON响应内容3.5 原始响应内容3.6 定制请求头3.7 复杂的 POST 请求3.8 使用POST提交文件3.9 响应状态码3.10 响应头3.11 Cookie3.12 重定向与请求历史3.13 超时3.14 错误与异常一、什么是爬虫1.1 爬原创 2022-01-14 18:02:02 · 705 阅读 · 0 评论