- 博客(7)
- 收藏
- 关注
原创 八 python爬虫之scrapy框架
1 scrapy框架初识什么是框架?所谓的框架简单通用解释就是就是一个具有很强通用性并且集成了很多功能的项目模板,该模板可被应用在不同的项目需求中。也可被视为是一个项目的半成品。如何学习框架?对于刚接触编程或者初级程序员来讲,对于一个新的框架,只需要掌握该框架的作用及其各个功能的使用和应用即可,对于框架的底层实现和原理,在逐步进阶的过程中在慢慢深入即可。什么是scrapy?Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。其内部已经被集成了各种功能(高性能
2020-11-25 21:01:28 199
原创 七 动态加载数据处理
1 selenium模块的基本使用1.1简介selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器1.2 环境安装下载安装selenium:pip install selenium下载浏览器驱动程序:http://chromedriver.storage.googleapis.com/i
2020-11-19 19:56:05 317
原创 五 python爬虫之requests高级
需求:模拟浏览器对网站进行登录操作浏览器请求行为在浏览器中进行登录时,录入完用户名、密码和验证码后,需要点击登录按钮。只有在点击登录按钮后,当前页面才会发起一次网络请求。该次网络请求可以通过抓包工具捕获。经过抓包分析后,我们就可以模拟浏览器点击登陆按钮后发起的请求操作了。该请求为post请求,对应的url在上图中可以看到,切请求携带的参数也可以在抓到的数据包中获取。参数分析:email:用户名password:密码icode:验证码(通过超级鹰识别)剩下的参数不需要分析编码识别验证码
2020-11-14 12:32:07 152
原创 一 python爬虫基础概念
1 what is 爬虫?形象概念: 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它。学术概念:爬虫就是通过编写程序模拟浏览器上网,让其去互联网上抓取数据的过程。2 爬虫的价值之前在授课过程中,好多同学都问过我这样的一个问题:为什么要学习爬虫,学习爬虫能够为我们以后的发展带来那些好处?其实学习爬虫的原因和为我们以后发展带来的好处都是显而易见的,无论是从实
2020-11-08 23:17:07 256
原创 四 验证码
1 what is 验证码?是一种区分用户是计算机还是人的公共全自动程序。验证码可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,我们利用比较简易的方式实现了这个功能。2 验证码和爬虫之间的关系有些时候,我们想要去爬取一些基于某些用户的用户信息,比如爬取张三新浪微博的博文和好友数量……那么这些时候,我们就需要使用爬虫进行某些平台的模拟登陆,登陆成功后爬取该用户的相关用户信息。模拟登陆的过程中,往
2020-11-03 18:11:06 905
原创 三 python爬虫之数据解析
1. requests模块实现数据爬取的流程指定url发起请求获取响应数据持久化存储在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求,我们都会指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是整个页面的数据。因此,本次课程中会给大家详细介绍讲解三种聚焦爬虫中的数据解析方式。至此,我们的数据爬取的流程可以修改为:指定url发起请求获取响应数据数据解析持久化存储2 python如何实现数据解析?2.1正则表达式案列:#
2020-10-30 23:55:46 471
原创 二 python爬虫之基于requests模块学习
基于如下5点展开requests模块的学习1 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。2 为什么要使用requests模块因为在使用urllib模块的时候,会有诸多不便之处,总结如下:手动处理url编码手动处理post请求参数处理cookie和代理操作繁琐3 使用requests模块:自动处理url编码自动处理post请求参数简化coo
2020-10-27 20:36:38 193
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人