爬虫基础_IT.BOB的博客-CSDN博客

爬虫基础

关注

Python3 爬虫学习笔记

关注数：文章数：18 文章阅读量：14548 文章收藏量：52

作者: IT.BOB

专注网络爬虫/JS逆向/APP逆向/风控策略研究

展开

Python3 爬虫学习笔记 C01 【基本库 urllib 的使用】

文章目录 1.1 urllib 简介 1.1.1 urllib.request 发送请求1.1.1.1 urllib.request.urlopen()● 基本使用方法● 添加参数● data 参数● timeout 参数1.1.1.2 urllib.request.Request()1.1.1.3 urllib.request.urlretrieve() 1.1.2 urllib.error ...

原创 2019-08-19 01:00:25 · 1187 阅读 · 0 评论
Python3 爬虫学习笔记 C02 【基本库 requests 的使用】

文章目录 2.1 requests 简介 2.2 requests 基本用法 2.3 requests 构建 GET 请求 2.3.1 基本用法 2.3.2 二进制数据抓取 2.3.3 添加 headers 2.4 requests 构建 POST 请求 2.5 requests 高级用法 2.5.1 上传文件 2.5.2 使用 Cookies 2.5.3 会话维持 2.5.4 SSL 证书验证...

原创 2019-08-19 18:28:58 · 997 阅读 · 0 评论
Python3 爬虫学习笔记 C03 【Ajax 数据爬取】

文章目录【3.1】Ajax 简介【3.2】解析真实地址提取【3.1】Ajax 简介Ajax — Asynchronous Javascript And XML（异步 JavaScript 和 XML），是指一种创建交互式网页应用的网页开发技术。可以在不重新加载整个网页的情况下，对网页的某部分进行更新。【3.2】解析真实地址提取以豆瓣电影动作片排行榜为例，地址为：https://...

原创 2019-08-20 22:45:38 · 824 阅读 · 0 评论
Python3 爬虫学习笔记 C04 【自动化测试工具 Selenium】

文章目录【3.1】下载驱动【3.2】声明浏览器对象【3.3】访问页面【3.4】启动参数【3.5】查找节点【3.5.1】查找单个节点【3.5.2】查找多个节点【3.6】节点交互【3.7】动作链【3.8】执行 JavaScript 【3.9】禁用加载【3.10】获取节点信息【3.10.1】获取属性【3.10.2】获取文本值【3.10.3】获取 ID、位置、标签名、大小【...

原创 2019-08-22 16:59:46 · 788 阅读 · 0 评论
Python3 爬虫学习笔记 C05 【Selenium + 无界面浏览器】

文章目录关于无界面浏览器PhantomJSHeadless ChromeHeadless Firefox关于无界面浏览器无界面（headless）浏览器，会把网站加载到内存并执行页面上的 JavaScript，因为不会展示图形界面，所以运行起来比完整的浏览器更高效。Selenium 搭配无界面浏览器使用，被称为爬虫利器，常用的无界面浏览器有：PhantomJS、Headless Chrom...

原创 2019-08-23 20:08:36 · 786 阅读 · 0 评论
Python3 爬虫学习笔记 C06 【正则表达式】

文章目录【6.1】关于正则表达式【6.2】re.match() 方法【6.2.1】提取内容【6.2.2】通用匹配【6.2.3】贪婪匹配【6.2.4】非贪婪匹配【6.2.5】转义匹配【6.2.6】修饰符【6.3】re.search() 方法【6.4】re.findall() 方法【6.5】re.sub() 方法【6.5】re.compile() 方法【6.1】关于正则表达式正则表达式是对字符...

原创 2019-08-24 18:32:25 · 951 阅读 · 0 评论
Python3 爬虫学习笔记 C07 【解析库 lxml】

文章目录【7.1】关于 lxml【7.2】使用 XPath【7.3】查找所有节点【7.4】查找子节点【7.5】查找父节点【7.6】属性匹配【7.7】文本获取【7.8】属性获取【7.9】一个属性包含多个值的匹配【7.10】多个属性匹配一个节点【7.11】按顺序选择节点【7.12】节点轴选择【7.1】关于 lxmllxml 是 Python 的一个解析库，支持 HTML 和 XML 的解析，...

原创 2019-08-25 19:27:40 · 794 阅读 · 0 评论
Python3 爬虫学习笔记 C08【解析库 Beautiful Soup】

文章目录【7.1】关于 Beautiful Soup【7.2】Beautiful Soup 的基本使用【7.3】节点选择器【7.3.1】元素选择【7.3.2】提取信息【7.3.3】嵌套选择【7.3.4】关联选择【7.4】方法选择器【7.4.1】find_all() 方法【7.4.2】find() 方法【7.1】关于 Beautiful SoupBeautiful Soup 可以从 HTML...

原创 2019-08-26 21:12:54 · 777 阅读 · 0 评论
Python3 爬虫学习笔记 C09【数据储存系列 — 文件储存】

文章目录【9.1】TXT 文本存储【9.1.1】基本示例【9.1.2】打开方式【9.2】JSON 文件存储【9.2.1】对象和数组【9.2.2】读取 JSON【9.2.3】写入 JSON 文件【9.3】CSV 文本存储【9.3.1】写入【9.3.2】读取Python3 爬虫学习笔记第七章 —— 【文件储存】用解析器解析出数据之后，还需要对数据进行保存。保存的形式多种多样，最简单的形式是...

原创 2019-08-27 18:49:43 · 630 阅读 · 0 评论
Python3 爬虫学习笔记 C10【数据储存系列 — MySQL】

Python3 爬虫学习笔记第十章 —— 【MySQL数据储存】文章目录【10.1】MySQL 基本操作语句数据库操作表操作表的结构表的数据【10.2】Python 连接 MySQL【10.3】创建表【10.4】插入数据【10.5】更新数据【10.6】删除数据【10.7】查询数据【10.8】实战训练 — 爬取CSDN博客标题和地址保存到 MySQL【10.1】MySQL 基本操作语句...

原创 2019-09-03 23:37:04 · 626 阅读 · 1 评论
Python3 爬虫学习笔记 C11【数据储存系列 — MongoDB】

Python3 爬虫学习笔记第十一章 —— 【MongoDB数据储存】文章目录【11.1】关于 MongoDB【11.2】MongoDB 基本操作语句【11.3】连接 MongoDB【11.4】指定数据库【11.5】指定集合【11.6】插入数据【11.6】数据查询【11.7】数据计数【11.8】数据排序【11.9】数据偏移【11.10】更新数据【11.11】删除数据【11.1】关于 ...

原创 2019-09-04 21:59:40 · 555 阅读 · 0 评论
Python3 爬虫学习笔记 C12【验证码对抗系列 — 图形验证码】

Python3 爬虫学习笔记第十二章 —— 【攻克验证码系列—普通图形验证码】文章目录【12.1】关于普通图形验证码【12.2】tesserocr 库识别验证码【12.3】pytesseract 库识别验证码【12.4】验证码处理【12.1】关于普通图形验证码普通图形验证码一般由四位纯数字、纯字母或者字母数字组合构成，是最常见的验证码，也是最简单的验证码，利用 tesserocr ...

原创 2019-09-05 22:53:54 · 719 阅读 · 0 评论
Python3 爬虫学习笔记 C13【验证码对抗系列 — 滑动验证码】

Python3 爬虫学习笔记第十三章 —— 【验证码对抗系列—滑动验证码】文章目录【13.1】关于滑动验证码【13.2】滑动验证码攻克思路【13.3】模拟登录 bilibili — 总体思路【13.4】主函数【13.5】初始化函数【13.6】登录函数【13.7】验证码元素查找函数【13.8】元素可见性设置函数【13.9】验证码截图函数【13.10】滑动函数【13.11】计算滑块移动距离函...

原创 2019-09-07 03:49:39 · 954 阅读 · 0 评论
Python3 爬虫学习笔记 C14【验证码对抗系列 — 点触验证码】

Python3 爬虫学习笔记第十四章 —— 【验证码对抗系列 — 点触验证码】文章目录【14.1】关于点触验证码【14.2】点触验证码攻克思路【14.3】模拟登录 12306 — 总体思路【14.4】主函数【14.5】初始化函数【14.6】破解入口函数【14.7】账号密码输入函数【14.8】页面截图函数【14.9】验证码元素查找函数【14.10】获取验证码坐标函数【14.11】验证码剪裁...

原创 2019-09-08 01:36:05 · 948 阅读 · 0 评论
Python3 爬虫学习笔记 C15【代理的基本使用】

Python3 爬虫学习笔记第十五章 —— 【代理的基本使用】文章目录【15.1】代理初识【15.2】urllib 库使用代理【15.3】requests 库使用代理【15.4】Selenium 使用代理【15.4.1】Chrome【15.4.1】PhantomJS【15.1】代理初识大多数网站都有反爬虫机制，如果一段时间内同一个 IP 发送的请求过多，服务器就会拒绝访问，直接禁封...

原创 2019-09-10 19:44:24 · 574 阅读 · 0 评论
Python3 爬虫学习笔记 C16【数据储存系列 — Redis】

Python3 爬虫学习笔记第十六章 —— 【数据储存系列 — Redis】文章目录【16.1】关于 Redis【16.2】使用 Redis【16.3】Key（键）操作【16.4】String（字符串）操作【16.5】Hash（哈希表）操作【16.6】List（列表）操作【16.7】Set（集合）操作【16.8】SortedSet（有序集合）操作【16.9】RedisDump【16.9....

原创 2019-09-14 00:49:51 · 766 阅读 · 0 评论
Python3 爬虫学习笔记 C17【爬虫框架 pyspider — 基本使用】

title: Python3 爬虫学习笔记 C17tags:爬虫pyspidercategories:Python3 学习笔记Python3 爬虫thumbnail: https://cdn.jsdelivr.net/gh/TRHX/ImageHosting/ITRHX-PIC/thumbnail/spider.pngavatar: https://cdn.jsdelivr.n...

原创 2019-09-18 13:00:49 · 847 阅读 · 0 评论
Python3 爬虫学习笔记 C18【爬虫框架 pyspider — 深入理解】

Python3 爬虫学习笔记第十八章 —— 【爬虫框架 pyspider — 深入理解】文章目录【18.1】启动参数【18.1】启动参数常用启动命令：pyspider all，完整命令结构为：pyspider [OPTIONS] COMMAND [ARGS]，OPTIONS 为可选参数，包含以下参数：-c, --config FILENAME：指定配置文件名称–logging...

原创 2019-09-21 23:59:47 · 825 阅读 · 0 评论

爬虫基础

作者: IT.BOB

Python3 爬虫学习笔记 C01 【基本库 urllib 的使用】

Python3 爬虫学习笔记 C02 【基本库 requests 的使用】

Python3 爬虫学习笔记 C03 【Ajax 数据爬取】

Python3 爬虫学习笔记 C04 【自动化测试工具 Selenium】

Python3 爬虫学习笔记 C05 【Selenium + 无界面浏览器】

Python3 爬虫学习笔记 C06 【正则表达式】

Python3 爬虫学习笔记 C07 【解析库 lxml】

Python3 爬虫学习笔记 C08【解析库 Beautiful Soup】

Python3 爬虫学习笔记 C09【数据储存系列 — 文件储存】

Python3 爬虫学习笔记 C10【数据储存系列 — MySQL】

Python3 爬虫学习笔记 C11【数据储存系列 — MongoDB】

Python3 爬虫学习笔记 C12【验证码对抗系列 — 图形验证码】

Python3 爬虫学习笔记 C13【验证码对抗系列 — 滑动验证码】

Python3 爬虫学习笔记 C14【验证码对抗系列 — 点触验证码】

Python3 爬虫学习笔记 C15【代理的基本使用】

Python3 爬虫学习笔记 C16【数据储存系列 — Redis】

Python3 爬虫学习笔记 C17【爬虫框架 pyspider — 基本使用】

Python3 爬虫学习笔记 C18【爬虫框架 pyspider — 深入理解】