【 Python 网络爬虫】_IT.BOB的博客-CSDN博客

【 Python 网络爬虫】

关注

文章平均质量分 87

Python爬虫学习专栏

关注数：文章数：30 文章阅读量：83933 文章收藏量：1013

作者: IT.BOB

专注网络爬虫/JS逆向/APP逆向/风控策略研究

展开

Python 采集 Facebook 评论插件、留言外挂程序

实现时间：2021-05-30实现目标：采集 Facebook 评论插件、留言外挂程序的所有评论。完整代码：https://github.com/TRHX/Python3-Spider-Practice/tree/master/facebook-comments其他爬虫实战代码合集（持续更新）：https://github.com/TRHX/Python3-Spider-Practice爬虫实战专栏（持续更新）：https://itrhx.blog.csdn.net/article/categor.

原创 2021-05-30 22:29:51 · 2663 阅读 · 10 评论
Python + GitHub Actions 实现 CSDN 自动签到与抽奖（非 selenium 版本）

文章目录【1x00】技术栈【2x00】代码实现签到与抽奖【3x00】签到结果通知【03x01】Server 酱【03x02】企业微信【03x03】钉钉【4x00】自动签到【5x00】完整代码【6x00】如何使用【06x01】方法一：直接 Fork 代码（推荐）【06x01】方法二：自己上传代码本文旨在交流 Python 编程技术，若有侵犯 CSDN 利益，请联系我删除文章（直接给我删了也行????）。其他爬虫实战代码合集（持续更新）：https://github.com/TRHX/Python

原创 2021-05-29 03:21:07 · 2434 阅读 · 16 评论
CSDN 2020 博客之星实时数据排名（Python 爬虫 + PyEcharts）

CSDN 2020 博客之星实时数据排名：csdn.itrhx.comCSDN 一年一度的博客之星评选开始了，官网地址：https://bss.csdn.net/m/topic/blog_star2020 ，由于官网是按照随机编号排序的，没有按照票数多少排序，为了方便查看排名，可以使用 Python 爬虫 + PyEcharts 来实现实时数据排名。打开 Google Chrome 的审查工具，可以找到一个 getUsers 的请求，请求地址为：https://bss.csdn.net/m/topic

原创 2021-01-12 21:29:36 · 4553 阅读 · 157 评论
Python3 爬虫学习笔记 C01 【基本库 urllib 的使用】

文章目录 1.1 urllib 简介 1.1.1 urllib.request 发送请求1.1.1.1 urllib.request.urlopen()● 基本使用方法● 添加参数● data 参数● timeout 参数1.1.1.2 urllib.request.Request()1.1.1.3 urllib.request.urlretrieve() 1.1.2 urllib.error ...

原创 2019-08-19 01:00:25 · 1515 阅读 · 0 评论
Python3 爬虫学习笔记 C02 【基本库 requests 的使用】

文章目录 2.1 requests 简介 2.2 requests 基本用法 2.3 requests 构建 GET 请求 2.3.1 基本用法 2.3.2 二进制数据抓取 2.3.3 添加 headers 2.4 requests 构建 POST 请求 2.5 requests 高级用法 2.5.1 上传文件 2.5.2 使用 Cookies 2.5.3 会话维持 2.5.4 SSL 证书验证...

原创 2019-08-19 18:28:58 · 1026 阅读 · 0 评论
Python3 爬虫学习笔记 C03 【Ajax 数据爬取】

文章目录【3.1】Ajax 简介【3.2】解析真实地址提取【3.1】Ajax 简介Ajax — Asynchronous Javascript And XML（异步 JavaScript 和 XML），是指一种创建交互式网页应用的网页开发技术。可以在不重新加载整个网页的情况下，对网页的某部分进行更新。【3.2】解析真实地址提取以豆瓣电影动作片排行榜为例，地址为：https://...

原创 2019-08-20 22:45:38 · 837 阅读 · 0 评论
Python3 爬虫学习笔记 C04 【自动化测试工具 Selenium】

文章目录【3.1】下载驱动【3.2】声明浏览器对象【3.3】访问页面【3.4】启动参数【3.5】查找节点【3.5.1】查找单个节点【3.5.2】查找多个节点【3.6】节点交互【3.7】动作链【3.8】执行 JavaScript 【3.9】禁用加载【3.10】获取节点信息【3.10.1】获取属性【3.10.2】获取文本值【3.10.3】获取 ID、位置、标签名、大小【...

原创 2019-08-22 16:59:46 · 799 阅读 · 0 评论
Python3 爬虫学习笔记 C05 【Selenium + 无界面浏览器】

文章目录关于无界面浏览器PhantomJSHeadless ChromeHeadless Firefox关于无界面浏览器无界面（headless）浏览器，会把网站加载到内存并执行页面上的 JavaScript，因为不会展示图形界面，所以运行起来比完整的浏览器更高效。Selenium 搭配无界面浏览器使用，被称为爬虫利器，常用的无界面浏览器有：PhantomJS、Headless Chrom...

原创 2019-08-23 20:08:36 · 796 阅读 · 0 评论
Python3 爬虫学习笔记 C06 【正则表达式】

文章目录【6.1】关于正则表达式【6.2】re.match() 方法【6.2.1】提取内容【6.2.2】通用匹配【6.2.3】贪婪匹配【6.2.4】非贪婪匹配【6.2.5】转义匹配【6.2.6】修饰符【6.3】re.search() 方法【6.4】re.findall() 方法【6.5】re.sub() 方法【6.5】re.compile() 方法【6.1】关于正则表达式正则表达式是对字符...

原创 2019-08-24 18:32:25 · 961 阅读 · 0 评论
Python3 爬虫学习笔记 C07 【解析库 lxml】

文章目录【7.1】关于 lxml【7.2】使用 XPath【7.3】查找所有节点【7.4】查找子节点【7.5】查找父节点【7.6】属性匹配【7.7】文本获取【7.8】属性获取【7.9】一个属性包含多个值的匹配【7.10】多个属性匹配一个节点【7.11】按顺序选择节点【7.12】节点轴选择【7.1】关于 lxmllxml 是 Python 的一个解析库，支持 HTML 和 XML 的解析，...

原创 2019-08-25 19:27:40 · 802 阅读 · 0 评论
Python3 爬虫学习笔记 C08【解析库 Beautiful Soup】

文章目录【7.1】关于 Beautiful Soup【7.2】Beautiful Soup 的基本使用【7.3】节点选择器【7.3.1】元素选择【7.3.2】提取信息【7.3.3】嵌套选择【7.3.4】关联选择【7.4】方法选择器【7.4.1】find_all() 方法【7.4.2】find() 方法【7.1】关于 Beautiful SoupBeautiful Soup 可以从 HTML...

原创 2019-08-26 21:12:54 · 790 阅读 · 0 评论
Python3 爬虫学习笔记 C09【数据储存系列 — 文件储存】

文章目录【9.1】TXT 文本存储【9.1.1】基本示例【9.1.2】打开方式【9.2】JSON 文件存储【9.2.1】对象和数组【9.2.2】读取 JSON【9.2.3】写入 JSON 文件【9.3】CSV 文本存储【9.3.1】写入【9.3.2】读取Python3 爬虫学习笔记第七章 —— 【文件储存】用解析器解析出数据之后，还需要对数据进行保存。保存的形式多种多样，最简单的形式是...

原创 2019-08-27 18:49:43 · 643 阅读 · 0 评论
Python3 爬虫学习笔记 C10【数据储存系列 — MySQL】

Python3 爬虫学习笔记第十章 —— 【MySQL数据储存】文章目录【10.1】MySQL 基本操作语句数据库操作表操作表的结构表的数据【10.2】Python 连接 MySQL【10.3】创建表【10.4】插入数据【10.5】更新数据【10.6】删除数据【10.7】查询数据【10.8】实战训练 — 爬取CSDN博客标题和地址保存到 MySQL【10.1】MySQL 基本操作语句...

原创 2019-09-03 23:37:04 · 635 阅读 · 1 评论
Python3 爬虫学习笔记 C11【数据储存系列 — MongoDB】

Python3 爬虫学习笔记第十一章 —— 【MongoDB数据储存】文章目录【11.1】关于 MongoDB【11.2】MongoDB 基本操作语句【11.3】连接 MongoDB【11.4】指定数据库【11.5】指定集合【11.6】插入数据【11.6】数据查询【11.7】数据计数【11.8】数据排序【11.9】数据偏移【11.10】更新数据【11.11】删除数据【11.1】关于 ...

原创 2019-09-04 21:59:40 · 565 阅读 · 0 评论
Python3 爬虫学习笔记 C12【验证码对抗系列 — 图形验证码】

Python3 爬虫学习笔记第十二章 —— 【攻克验证码系列—普通图形验证码】文章目录【12.1】关于普通图形验证码【12.2】tesserocr 库识别验证码【12.3】pytesseract 库识别验证码【12.4】验证码处理【12.1】关于普通图形验证码普通图形验证码一般由四位纯数字、纯字母或者字母数字组合构成，是最常见的验证码，也是最简单的验证码，利用 tesserocr ...

原创 2019-09-05 22:53:54 · 732 阅读 · 0 评论
Python3 爬虫学习笔记 C13【验证码对抗系列 — 滑动验证码】

Python3 爬虫学习笔记第十三章 —— 【验证码对抗系列—滑动验证码】文章目录【13.1】关于滑动验证码【13.2】滑动验证码攻克思路【13.3】模拟登录 bilibili — 总体思路【13.4】主函数【13.5】初始化函数【13.6】登录函数【13.7】验证码元素查找函数【13.8】元素可见性设置函数【13.9】验证码截图函数【13.10】滑动函数【13.11】计算滑块移动距离函...

原创 2019-09-07 03:49:39 · 969 阅读 · 0 评论
Python3 爬虫学习笔记 C14【验证码对抗系列 — 点触验证码】

Python3 爬虫学习笔记第十四章 —— 【验证码对抗系列 — 点触验证码】文章目录【14.1】关于点触验证码【14.2】点触验证码攻克思路【14.3】模拟登录 12306 — 总体思路【14.4】主函数【14.5】初始化函数【14.6】破解入口函数【14.7】账号密码输入函数【14.8】页面截图函数【14.9】验证码元素查找函数【14.10】获取验证码坐标函数【14.11】验证码剪裁...

原创 2019-09-08 01:36:05 · 961 阅读 · 0 评论
Python3 爬虫学习笔记 C15【代理的基本使用】

Python3 爬虫学习笔记第十五章 —— 【代理的基本使用】文章目录【15.1】代理初识【15.2】urllib 库使用代理【15.3】requests 库使用代理【15.4】Selenium 使用代理【15.4.1】Chrome【15.4.1】PhantomJS【15.1】代理初识大多数网站都有反爬虫机制，如果一段时间内同一个 IP 发送的请求过多，服务器就会拒绝访问，直接禁封...

原创 2019-09-10 19:44:24 · 591 阅读 · 0 评论
Python3 爬虫学习笔记 C16【数据储存系列 — Redis】

Python3 爬虫学习笔记第十六章 —— 【数据储存系列 — Redis】文章目录【16.1】关于 Redis【16.2】使用 Redis【16.3】Key（键）操作【16.4】String（字符串）操作【16.5】Hash（哈希表）操作【16.6】List（列表）操作【16.7】Set（集合）操作【16.8】SortedSet（有序集合）操作【16.9】RedisDump【16.9....

原创 2019-09-14 00:49:51 · 781 阅读 · 0 评论
Python3 爬虫学习笔记 C17【爬虫框架 pyspider — 基本使用】

title: Python3 爬虫学习笔记 C17tags:爬虫pyspidercategories:Python3 学习笔记Python3 爬虫thumbnail: https://cdn.jsdelivr.net/gh/TRHX/ImageHosting/ITRHX-PIC/thumbnail/spider.pngavatar: https://cdn.jsdelivr.n...

原创 2019-09-18 13:00:49 · 862 阅读 · 0 评论
Python3 爬虫学习笔记 C18【爬虫框架 pyspider — 深入理解】

Python3 爬虫学习笔记第十八章 —— 【爬虫框架 pyspider — 深入理解】文章目录【18.1】启动参数【18.1】启动参数常用启动命令：pyspider all，完整命令结构为：pyspider [OPTIONS] COMMAND [ARGS]，OPTIONS 为可选参数，包含以下参数：-c, --config FILENAME：指定配置文件名称–logging...

原创 2019-09-21 23:59:47 · 839 阅读 · 0 评论
Python3 爬虫实战 — 猫眼电影TOP100【requests、lxml、Xpath、CSV 】

爬取时间：2019-09-23爬取难度：★☆☆☆☆请求链接：https://maoyan.com/board/4爬取目标：猫眼电影 TOP100 的电影名称、电影封面图、主演、上映时间、评分涉及知识：请求库 requests、解析库 lxml、Xpath 语法...

原创 2019-09-24 19:28:49 · 1819 阅读 · 0 评论
Python3 爬虫实战 — 豆瓣电影TOP250【requests、Xpath、正则表达式、CSV、二进制数据储存】

爬取时间：2019-09-27爬取难度：★★☆☆☆☆请求链接：豆瓣电影 Top 250 以及每部电影详情页爬取目标：爬取榜单上每一部电影详情页的数据，保存为 CSV 文件；下载所有电影海报到本地涉及知识：请求库 requests、解析库 lxml、Xpath 语法、正则表达式、CSV 和二进制数据储存、列表操作

原创 2019-09-28 14:04:07 · 9425 阅读 · 11 评论
Python3 爬虫实战 — 安居客武汉二手房【requests、Beautiful Soup、CSV】

爬取时间：2019-10-09爬取难度：★★☆☆☆☆请求链接：https://wuhan.anjuke.com/sale/爬取目标：爬取武汉二手房每一条售房信息，包含地理位置、价格、面积等，保存为 CSV 文件涉及知识：请求库 requests、解析库 Beautiful Soup、CSV 文件储存、列表操作、分页判断完整代码：https://github.com/TRHX/Pytho...

原创 2019-10-09 22:34:57 · 2786 阅读 · 4 评论
Python3 爬虫实战 — 虎扑论坛步行街【requests、Beautiful Soup、MongoDB】

爬取时间：2019-10-12爬取难度：★★☆☆☆☆请求链接：https://bbs.hupu.com/bxj爬取目标：爬取虎扑论坛步行街的帖子，包含主题，作者，发布时间等，数据保存到 MongoDB 数据库涉及知识：请求库 requests、解析库 Beautiful Soup、数据库 MongoDB 的操作完整代码：https://github.com/TRHX/Python3-...

原创 2019-10-13 00:26:20 · 1728 阅读 · 0 评论
Python3 爬虫实战 — 模拟登陆哔哩哔哩【滑动验证码对抗】

登陆时间：2019-10-19实现难度：★★★☆☆☆请求链接：https://passport.bilibili.com/login实现目标：模拟登陆哔哩哔哩，破解滑动验证码涉及知识：滑动验证码的破解、自动化测试工具 Selenium 的使用完整代码：https://github.com/TRHX/Python3-Spider-Practice/tree/master/bilibil...

原创 2019-10-21 11:27:55 · 4597 阅读 · 12 评论
Python3 爬虫实战 — 模拟登陆12306【点触验证码对抗】

登陆时间：2019-10-21实现难度：★★★☆☆☆请求链接：https://kyfw.12306.cn/otn/resources/login.html实现目标：模拟登陆中国铁路12306，攻克点触验证码涉及知识：点触验证码的攻克、自动化测试工具 Selenium 的使用、对接在线打码平台完整代码：https://github.com/TRHX/Python3-Spider-Pra...

原创 2019-10-21 16:43:04 · 3794 阅读 · 1 评论
Python3 爬虫实战 — 58同城武汉出租房【加密字体对抗】

爬取时间：2019-10-21爬取难度：★★★☆☆☆请求链接：https://wh.58.com/chuzu/爬取目标：58同城武汉出租房的所有信息涉及知识：网站加密字体的攻克、请求库 requests、解析库 Beautiful Soup、数据库 MySQL 的操作完整代码：https://github.com/TRHX/Python3-Spider-Practice/tree/m...

原创 2019-10-21 21:09:44 · 4490 阅读 · 0 评论
COVID-19 肺炎疫情数据实时监控（python 爬虫 + pyecharts 数据可视化 + wordcloud 词云图）

文章目录【1x00】前言【2x00】思维导图【3x00】数据结构分析【4x00】主函数 main()【5x00】数据获取模块 data_get【5x01】初始化函数 init()【5x02】中国总数据 china_total_data()【5x03】全球总数据 global_total_data()【5x04】中国每日数据 china_daily_data()【5x05】境外每日数据 foreign_daily_data()【6x00】词云图绘制模块 data_wordcloud【6x01】中国累计确诊词.

原创 2020-07-06 12:49:35 · 10756 阅读 · 43 评论
Python3 爬虫实战 — 前程无忧招聘信息爬取 + 数据可视化

爬取时间：2020-07-11实现目标：根据用户输入的关键字爬取相关职位信息存入 MongoDB，读取数据进行可视化展示。涉及知识：请求库 requests、Xpath 语法、数据库 MongoDB、数据处理 Numpy、Pandas、数据可视化 Matplotlib。完整代码：https://github.com/TRHX/Python3-Spider-Practice/tree/master/51job其他爬虫实战代码合集（持续更新）：https://github.com/TRHX/Pytho.

原创 2020-07-13 21:39:55 · 19795 阅读 · 27 评论

【 Python 网络爬虫 】

作者: IT.BOB

Python 采集 Facebook 评论插件、留言外挂程序

Python + GitHub Actions 实现 CSDN 自动签到与抽奖（非 selenium 版本）

CSDN 2020 博客之星实时数据排名（Python 爬虫 + PyEcharts）

Python3 爬虫学习笔记 C01 【基本库 urllib 的使用】

Python3 爬虫学习笔记 C02 【基本库 requests 的使用】

Python3 爬虫学习笔记 C03 【Ajax 数据爬取】

Python3 爬虫学习笔记 C04 【自动化测试工具 Selenium】

Python3 爬虫学习笔记 C05 【Selenium + 无界面浏览器】

Python3 爬虫学习笔记 C06 【正则表达式】

Python3 爬虫学习笔记 C07 【解析库 lxml】

Python3 爬虫学习笔记 C08【解析库 Beautiful Soup】

Python3 爬虫学习笔记 C09【数据储存系列 — 文件储存】

Python3 爬虫学习笔记 C10【数据储存系列 — MySQL】

Python3 爬虫学习笔记 C11【数据储存系列 — MongoDB】

Python3 爬虫学习笔记 C12【验证码对抗系列 — 图形验证码】

Python3 爬虫学习笔记 C13【验证码对抗系列 — 滑动验证码】

Python3 爬虫学习笔记 C14【验证码对抗系列 — 点触验证码】

Python3 爬虫学习笔记 C15【代理的基本使用】

Python3 爬虫学习笔记 C16【数据储存系列 — Redis】

Python3 爬虫学习笔记 C17【爬虫框架 pyspider — 基本使用】

Python3 爬虫学习笔记 C18【爬虫框架 pyspider — 深入理解】

Python3 爬虫实战 — 猫眼电影TOP100【requests、lxml、Xpath、CSV 】

Python3 爬虫实战 — 豆瓣电影TOP250【requests、Xpath、正则表达式、CSV、二进制数据储存】

Python3 爬虫实战 — 安居客武汉二手房【requests、Beautiful Soup、CSV】

Python3 爬虫实战 — 虎扑论坛步行街【requests、Beautiful Soup、MongoDB】

Python3 爬虫实战 — 模拟登陆哔哩哔哩【滑动验证码对抗】

Python3 爬虫实战 — 模拟登陆12306【点触验证码对抗】

Python3 爬虫实战 — 58同城武汉出租房【加密字体对抗】

COVID-19 肺炎疫情数据实时监控（python 爬虫 + pyecharts 数据可视化 + wordcloud 词云图）

Python3 爬虫实战 — 前程无忧招聘信息爬取 + 数据可视化

【 Python 网络爬虫】