爬虫
文章平均质量分 65
爬虫就是模拟客户端(浏览器)发送网络请求,获取响应,按照规则提取数据的程序
模拟客户端(浏览器)发送网络请求的意思就是:照着浏览器发送一模一样的请求,获取和浏览器一模一样的数据
笔记本IT
一个正在疯狂练英语口语以及学嵌入式的准爱尔兰留学生,希望和你在英语和编程技术方面一起进步!
展开
-
终章:2021/7/8爬虫第三十四次课(反反爬措施三之js反爬补充)
文章目录一、steam平台js算法逆向二、百度翻译JS逆向一、steam平台js算法逆向1 通过Network 我们发现了2个数据接口 getrsakey dologin在dologin 密码是做了加密处理2 通过搜索关键字password 然后我们确定了一个数据接口 login.js....继续去它的源码当中搜索关键字 password 。然后逐个分析 var encryptedPassword = RSA.encrypt(password, pubKey); 它可能可以3 通过断点原创 2021-07-20 21:39:21 · 617 阅读 · 2 评论 -
2021/7/6爬虫第三十三次课(反反爬措施三之字体反爬与js反爬)
一、字体反爬什么是字体反爬?开发者创作了一种字体(字体代号) --> 网页中显示的就是这种字体代号一般为CSS反爬 就是因为这个字体是隐藏在我们css文件当中的一个.ttf文件如何解决字体反爬?1 先找到.ttf文件 (在网页源代码中搜.ttf)需要把它转换成xml文件 (在pycharm)2 分析xml文件 通过 FontCreator(360应用市场搜索下载即可)(得字体列表)3 找出字体对应的映射关系 --->和真实的字体做替换需求:爬取文字字体内容第一步原创 2021-07-19 18:07:43 · 261 阅读 · 0 评论 -
2021/7/3爬虫第三十二次课(反反爬措施二之突破行为验证,opencv)
一、图形验证码(实现上次的12306突破验证码)12306图片验证码的实现解决方案: selenium(鼠标行为链) + 打码平台思路:通过selenium来加载登录页面,获取验证码图片。我就可以把验证码图片交给超级鹰打码平台进行处理。让其给我返回这张验证码正确的坐标值。拿到正确的坐标值之后去点击图片实现步骤第一步 使用selenium加载登录页面第二步 对页面进行保存(截屏,通过selenium)第三步 截取12306图片验证码 (通过selenium)第四步 交给超级鹰打码原创 2021-07-18 10:07:35 · 332 阅读 · 2 评论 -
2021/7/1爬虫第三十一次课(反反爬措施一之代理ip与打码平台)
文章目录一、运用ip代理(一个代理ip尽量只一个人用)二、图形验证码(有两种)2.1简单数字加字母类型tesseract2.2复杂(图片,等)打码平台一、运用ip代理(一个代理ip尽量只一个人用)这里的ip指的是网络ip代理ip,网上自己找(免费或付费)推荐两个:“豌豆HTTP”:免费,具体使用,看之前的“快代理”:付费介绍:(有试用期限)私密代理与独享代理:可靠性高,难点在于代码格式:proxies = {'协议':'协议://用户名:密码@ip:端口号'}开放代理:类似免费的原创 2021-07-16 21:32:01 · 639 阅读 · 2 评论 -
2021/6/29爬虫第三十次课(fiddler抓包实例)
文章目录一、fiddler抓包工具了解二、爬移动端数据前的配置三、案例(豆果美食、全民小视频)3.1 豆果美食3.2 全民小视频一、fiddler抓包工具了解Tools>>actions(安装证书)Rules>>Require Proxy Authentication(若勾选,每次登陆都要有提示)Process(进程)二、爬移动端数据前的配置fiddler(见以前的blog)模拟器的配置(以下)查找ip ipconfig (a.b)1. 点击系统设置 --原创 2021-07-15 23:31:27 · 984 阅读 · 0 评论 -
2021/6/26爬虫第二十九次课(fiddler抓包工具)
文章目录一、拓展:android控件ListView的讲解(以后再细学)二、fiddler与 switchomega插件一、拓展:android控件ListView的讲解(以后再细学)环境 找博客视频按照1 安装jdk 就可以使用java这门语言进行开发了2 android studio (安卓应用开发环境,基于**java开发**)学习原因就是我们在爬取移动端数据的时候 必须要分析数据接口,我们难免会碰到一些android的名词。对于这些名词我们应该有一个基本的认知听思路 不用看代码原创 2021-07-12 21:13:53 · 154 阅读 · 0 评论 -
2021/6/24爬虫第二十八次课(爬取移动端数据前导知识)
文章目录一、移动端数据抓取的背景介绍二、UiAutomator介绍三、UIAutomator2的执行流程四、adb的简介与安装和应用重点五、u2的快速入门(先初始化,后连接)一、移动端数据抓取的背景介绍PC端 --> 移动端 --> 大数据移动端数据的作用?数据分析用户画像统计系统商业竞争二、UiAutomator介绍ua是什么?是谷歌提供给安卓用来做自动化测试的一个Java库ua能够做什么?测试框架创建一个或多个设备针对于我们的应用进行自动化性能的UI测试原创 2021-07-11 11:19:49 · 318 阅读 · 0 评论 -
2021/6/20爬虫第二十六次课(mongodb上)
一、mongodb的概述1 它是什么?MongoDB就是一个非关系型数据库(文档数据库)2 为什么要学习它?- 企业需求(要求爬虫开发工程师必须会这个技术)- 爬虫的数据如果上了一个量级,使用MongoDB会比Mysql好一些 - scrapy_redis适用性小(并不是所有的公司都要用分布式)3 mongodb的特点?3.1 无数据结构(方便做爬虫)3.2 高性能(具有非常高的读写性能)3.3 良好的支持(完善的文档 跨平台 稳定)二、mongodb的安装具体安装教程原创 2021-07-05 22:20:18 · 88 阅读 · 0 评论 -
2021/6/17爬虫第二十五次课(scrapy_reids补充)
scrapy_reids补充学习目标1 通过一个案例改成成scrapy_redis 当当网2 案例练习 小说 盗墓笔记1 当当网当当网 http://book.dangdang.com/思路:先实现普通的scrapy爬虫,然后在改写成scrapy_redis**第一步 页面分析**需求:大分类 二级分类 三级分类 图书的名字和图片的src大分类整个大分类都在 div con flq_body 它下面的 div/dl/dt注意:1 在大分类中有一个span标签,但是源码中没有原创 2021-07-04 23:49:39 · 171 阅读 · 2 评论 -
2021/6/15爬虫第二十四次课(redis常用五大数据类型--set与zset、python操作redis、scrapy分布式爬虫实现)
这半个月停更python的学习内容,是因为准备期末考试,害。现在考完了,今天开始将疯狂学python和java, 哈哈。期间学到的心得和体会,我都会毫无保留的分享,请大家多多关照よろしくお願いします 잘 부탁드립니다. I’d appriciate your attention for our first meeting文章目录一、redis-set二、redis-zset三、python操作redis四、scrapy分布式爬虫实现4.1 什么是scrapy_redis4.2 scr原创 2021-07-02 21:14:18 · 150 阅读 · 1 评论 -
2021/6/13爬虫第七次周复盘
(码前)页面分析真正理解代码(run前)注意缩进看是否有明显错误(出现BUG)先看URL yieldxpathsettings细节:使用Images Pipeline下载图片时,images文件夹要自己建解析数据xpath 先在草稿纸上写下来json.loads(response.text) 即通过字典...原创 2021-06-13 22:10:14 · 400 阅读 · 3 评论 -
2021/6/10爬虫第二十二次课(crawlspider、scrapy实现登录)
一、crawlspider引入:回顾之前的代码中,我们有很大一部分时间在寻找下一页的url地址或者是详情页的url地址上面,这个过程能更简单一些么?定义:是scrpay另一种爬取数据的方式学习目标:了解crawlspider的使用crawlspiser是继承与spider这个爬虫类它的特点:根据规则提取链接发送给引擎如何创建crawlspiderscrapy genspider -t crawl xx xx.com有些场景使用crawlspider还是比较方便 前提是什么 (url的原创 2021-06-10 21:45:34 · 199 阅读 · 6 评论 -
爬虫课第一次报错总结
1import urllib.requesturl='https://www.baidu.com/s?wd=海贼王'res = urllib.request.urlopen(url)UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 10-12: ordinal not in range(128)原因:url包含不是ascii的字符处理:把“海贼王”改为%+十六进制(法1:百度,法2 urllib.par原创 2021-04-20 21:30:13 · 29220 阅读 · 0 评论 -
2021/6/6爬虫第六次周复盘
一、复习bs4xpath:记语法、copy (full) xpathbs4:(三大种类操作)遍历父、长辈们上、下兄弟(们)子、晚辈们查找“搜索文档树”(以后再看)find/find_all [元素、属性值、字符串]修改第十讲的select()、修改文档树(以后再看)补充:Comment : 注释html = '<a><!--大家慢慢来,好饭不怕晚,先把知识点掌握--></a>'soup2 = BeautifulSoup(ht原创 2021-06-07 13:02:46 · 109 阅读 · 1 评论 -
模板第一次总结--思路
(1)问题:爬取7天的 天气情况 日期 天气状况温度 风力–> 保存到CSV分析需求 要干什么事情 通过什么技术来解决爬取7天的 天气情况 日期 天气状况温度 风力–> 保存到CSV具体步骤(分析页面)1.先明确目标url通过分析我们发现要爬取的数据都在 ul class=“t clearfix” 这个标签当中,然后我们就去网页的源代码中确定了2.先获取网页的源代码 整个html文件3.从网页的源代码当中去匹配ul标签的数据4.从ul标签里面去匹配li标签的数据5.去解析原创 2021-05-16 17:14:09 · 306 阅读 · 1 评论