python爬虫数据分析
文章平均质量分 89
此专栏记录学习爬虫与数据分析的过程
胜天半月子
这个作者很懒,什么都没留下…
展开
-
Scrapy | 手动请求发送实现的数据爬取-段子王网站
手动请求发送实现爬虫数据获取,涉及回调函数原创 2024-08-09 15:10:40 · 327 阅读 · 0 评论 -
scrapy|请求传参实现的深度爬取-meta参数
通过scrapy.Request中的meta参数进行参数item的传递实现持久化存储原创 2024-08-09 12:52:26 · 334 阅读 · 0 评论 -
2024年python安装scrapy运行测试代码出现LookupError: unknown encoding: ‘b‘utf8‘‘的解决办法
LookupError: unknown encoding: 'b'utf8'' 出错的解决办法原创 2024-08-08 21:40:15 · 633 阅读 · 0 评论 -
python爬虫--scrapy框架的学习和使用(七)⭐---第二部分
文章目录九、CrawlSpider⭐⭐⭐实战项目问题总结十、分布式爬虫十一、总结九、CrawlSpider⭐⭐⭐是一个类,基于Spider的子类。子类继承父类所有的功能,并能派生出自己的功能! 用于全栈数据的爬取基于Spider:手动请求基于CrawlSpider使用流程创建工程(同以前不变)cd XXX创建爬虫文件(CrawlSpider):scrapy genspider -t crawl xxx www.xxx.com【scrapy genspid原创 2021-10-13 22:13:34 · 428 阅读 · 2 评论 -
python爬虫--scrapy框架的学习和使用(七)⭐⭐⭐---第一部分
文章目录前言一、scrapy框架的基本使用1.1 windows下安装scrapy1.2 scrapy的基本使用二、scrapy数据解析总结前言什么是框架?就是一个集成了很多功能并且具有很强通用性的一个项目模板。如何学习框架?专门学习框架封装的各种功能的详细用法。什么是scrapy?爬虫中封装好的一个明星框架。功能:高性能的持久化操作异步的数据下载操作高性能的数据解析操作分布式操作一、scrapy框架的基本使用环境安装linux和mac操原创 2021-10-13 16:38:39 · 6117 阅读 · 5 评论 -
python爬虫--selenium的理解以及使用(六)
文章目录前言一、selenium简介二、使用步骤1.引入库2.读入数据总结前言关于一个页面是否是动态加载(Aajax)数据的判断方法⭐⭐动态加载数据意味着直接对网址进行请求是无法直接拿到页面数据的,我们可以通过网页上的抓包工具定位到network对网页进行请求,并查看网页上的某个数据是否在network请求页面加载的数据页中步骤详解动态加载的数据是如何来的?一、selenium简介selenium模块和爬虫之间具有怎样的关联?便捷的获取网站中动态加载的数据边原创 2021-10-09 09:43:38 · 10439 阅读 · 6 评论 -
Python爬虫--高性能的异步爬虫(五)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录一、异步爬虫概述二、线程池的基本使用总结一、异步爬虫概述高性能异步爬虫 :在爬虫中使用异步实现高性能的数据爬取操作传统爬取数据的操作是顺序操作,下面看一个实例代码分析上述代码可知 for循环中的get方法会阻塞程序,只有请求到的数据获取后,才可以进行下一条url中对应的数据上述可知,使用异步会提高爬虫程序的数据获取效率异步爬虫的方式多线程,多进程好处:可以为相关阻塞的操作单独开启线原创 2021-09-28 19:47:48 · 1218 阅读 · 4 评论 -
Python爬虫--人人网模拟登录cookie(四)
文章目录模拟登录一、pandas是什么?二、使用步骤1.引入库2.读入数据总结欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入模拟登录爬取基于某些用户的用户信息需求: 对人人网原创 2021-09-25 12:48:50 · 610 阅读 · 0 评论 -
Python爬虫之网站验证码识别(三)
文章目录前言一、云打码平台使用流程1.1 使用流程1.2 使用超人云平台1.3 实战演练总结前言验证码和爬虫之间的爱恨情仇?门户网站所提供的一种反爬机制:验证码应用场景爬取基于用户的相关信息时,我们需要在爬取数据之前做登录的操作:浏览器中进行登录操作很简单只需要输入相关信息后点击登录即可用requests模块登陆操作时,可能需要提交验证码如何做识别验证码图片中的数据,用于模拟登陆操作:人工肉眼识别(不推荐)有些验证码干扰线少,肉眼可以识别清楚,而有些肉眼原创 2021-06-01 15:21:17 · 454 阅读 · 1 评论 -
Python爬虫之数据解析/提取(二)
文章目录前言数据分析分类数据解析原理概述一、正则进行数据解析二、使用步骤1.引入库2.读入数据总结 正则findall()方法的使用前言爬虫在使用场景中的分类通用爬虫抓取系统重要组成部分。抓取的是一整张页面数据聚焦爬虫⭐是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。增量式爬虫⭐检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。数据分析分类正则bs4xpath⭐数据解析原理概述聚焦爬虫编码流程:指定url发起请求获取响应数原创 2021-04-22 20:30:05 · 2447 阅读 · 5 评论 -
JSON的学习使用
文章目录笔记来源一、使用 json 保存结构化数据二、基本使用2.1 基础讲解2.2 实例引入⭐总结笔记来源菜鸟教程:Python JSONPython json 模块dumps、dump、loads、load的使用官方文档:7.2.2. 使用 json 保存结构化数据json — JSON 编码和解码器一、使用 json 保存结构化数据json 标准模块采用 Python 数据层次结构,并将之转换为字符串表示形式的过程称为 serializing (序列化原创 2021-04-21 21:06:58 · 374 阅读 · 2 评论 -
⭐模式匹配与正则表达式
文章目录前言一、普通方法查找文本二、使用步骤1.引入库2.读入数据总结前言一直想找个机会好好的学习正则表达式的基础知识,现在随着学习和复习Python有关知识遇到了正则表达式,在此记录,以便日后复习使用。正则表达式的主要应用是网络爬虫,日后学习爬虫遇到新的感悟体会会不断加入到这篇博客。一、普通方法查找文本保存isPhoneNumber.py:在字符串中查找电话号码。例如:415-555-4242# 不用正则表达式来查找文本模式def isPhoneNumber(text): i原创 2021-03-31 18:31:53 · 464 阅读 · 3 评论 -
爬虫入门概念与硬核实战巩固(一)
文章目录前言一、爬虫是什么?1.1 robots.txt1.2 http1.3 https二、request模块2.1 网络请求requests2.1.1 实战---ruquests第一血2.读入数据总结前言你是否在夜深人静的时候,想看一些会让你更睡不着的图片却苦于没有资源…你是否在节假日出行高峰的时候,想快速抢购火车票成功…你是否在网上购物的时候,想快速且精准的定位到口碑质量最好的商品…一、爬虫是什么?通过编写程序、模拟浏览器上网,然后让其模拟浏览器去上网,然后让其去互联网上抓取数原创 2021-04-19 17:38:38 · 924 阅读 · 0 评论