爬虫与逆向
文章平均质量分 83
爬虫与逆向
down_dawn
这个作者很懒,什么都没留下…
展开
-
多ip服务器绑定ip发送请求(requests和scrapy)
多ip服务器绑定ip发送请求(requests和scrapy)有时候我们会购买多ip服务器(站群服务器),来满足特定的需求,比如建站,SEO等。多ip服务器通常是ip越多价格越贵,ip段也有优劣之分。对于爬虫而言,200多个ip,合理利用的话也可以满足很多需求了。本篇文章针对python的两个爬虫库:requests和scrapy,怎么绑定指定ip发送请求做的整理笔记。1、获取本机所有ip第一步就是要知道本机有多少可用的ip。import psutildef get_local_ips(原创 2020-11-12 16:49:35 · 1227 阅读 · 1 评论 -
获取秒级股票详细数据——Ajax-hook
获取秒级股票详细数据——Ajax-hook1、分析数据首先看看有哪些数据可以获取网站:雪球网,随便打开一只股票可以发现,在工作日期间,每隔几秒都会有这么多xhr请求。看看里面有一些什么数据。仔细研究可以发现,基本上页面上的数据都可以找到,除了实时的ticks数据,还有什么五档盘口,成交明细等等。大概这个页面的数据都可以,有兴趣就去慢慢对应吧(代码里应该有相关映射)。2、实现思路与代码按照正常逻辑,我们只要去不断的请求这些接口就可以获取到数据了,而且这些数据基本上没有什么加密(就是没原创 2020-08-25 09:38:48 · 2365 阅读 · 0 评论 -
js逆向实战之AES加密
前言仅学习之用,勿商,侵删。目标网站:aHR0cHMlM0EvL3d3dy5tYW9tYW96dS5jb20vJTIzL2J1aWxk环境node(执行破解js,提供接口)python3.6(执行爬虫)开始!分析请求页面,白白净净三条Ajax。随便进去看看请求头和返回的数据。好球,都是加密的数据。接下来找到加密位置。八仙过海,可以尝试直接搜索常见的关键词:md5,base64,RSA,ASE,encrypt,decrypt,JSON.parse等等。或者用油猴插件一次性hook原创 2020-06-17 11:29:39 · 2080 阅读 · 0 评论 -
js逆向常见加密算法——python
js逆向常见加密算法——python整理(copy)一下js逆向过程中常见的加解密方法,方便查阅。从熟悉的python开始吧。有些做一点点简单的封装。原理什么的搜索解决。base64# -*- coding: utf-8 -*-import base64def encode_base64(data, encode_method="utf-8"): """ base64加密 :param data: 待加密字符串 :param encode_method:原创 2020-06-17 11:28:47 · 997 阅读 · 0 评论 -
大众点评数据信息获取——字体反爬
大众点评数据信息获取——字体反爬大众点评的字体反爬算是比较常见的,这次来学习一下相关字体反爬的技巧以店铺的评论页面和店铺列表页面进行研究,分别对应了css字体映射,woff字体加密的反爬虫手段。1、店铺评论页——css字体映射(svg)随便打开一个链接:http://www.dianping.com/shop/FU8Gnkledt9y1i4z/review_all稍微观察一下,可以发现页面的地址、电话和评论信息都被加密了,对应的字体位置存在一些特殊占位符。留意一下,<bb class="原创 2020-05-22 16:35:19 · 1061 阅读 · 3 评论 -
异步方案——RabbitMQ+Celery
异步方案——RabbitMQ+Celery1、RabbitMQ介绍和使用1.1、生产者消费者设计模式最常用的解耦方式之一,寻找中间人(broker)搭桥,保证两个业务没有直接关联。生产者生成消息,缓存到消息队列中,消费者读取消息队列中的消息并执行。1.2. RabbitMQ介绍消息队列是消息在传输的过程中保存消息的容器。现在主流消息队列有:RabbitMQ、ActiveMQ、...原创 2020-04-14 17:32:33 · 893 阅读 · 5 评论 -
python爬虫中的去重处理
python爬虫中的去重处理爬虫进阶课程笔记。1、去重应用场景以及基本原理1.1、 爬虫中什么业务需要使用去重防止发出重复的请求防止存储重复的数据1.2、去重实现的基本原理根据给定的判断依据和给定的去重容器,将原始数据逐一进行判断,判断去重容器中是否有该数据。如果没有那就把该数据对应的判断依据添加去重容器中,同时标记该数据是不重复数据;如果有就不添加,同时标记该数据是重复数据。...原创 2020-04-10 15:36:25 · 879 阅读 · 0 评论 -
某东全网爬虫——scrapy_redis分布式
某东全网爬虫——scrapy_redis分布式爬取京东的商品信息,从外层的分类,一步步深入获取商品的详情页信息。环境:Python3.7需求:1、首页的分类信息:各级分类的名称和URL2、商品信息:商品名称, 商品价格, 商品评论数量, 商品店铺, 商品促销, 商品选项, 商品图片等等技术选择:由于全网爬虫, 抓取页面非常多, 为了提高抓的速度, 选择使用scrapy框架 + scr...原创 2020-03-13 15:54:48 · 552 阅读 · 0 评论 -
拼多多商品信息爬取
拼多多商品信息爬取爬取完几个主流电商平台的信息,今天想着也去攻克一下拼多多。于是先去GitHub上面找一下有没有哪位大神搞过了借鉴一下,然后果然发现一个好用的接口。想着既然找到了就先下载下来跑一下,嗯。。。“热门”的感觉可以,应该很简单。然后就兴高采烈地扩展一下别的商品种类,果然很多坑。。一、思路分析经过谷歌F12工具一番分析,总结一下爬取思路:1、“热门”商品比较特殊,其他商品种类有...原创 2019-02-28 17:28:21 · 40448 阅读 · 51 评论 -
亚马逊商品信息爬取
亚马逊商品信息爬取国内的电商网站,淘宝、京东、拼多多都爬取过了,今天来爬取一个对跨境电商很重要的亚马逊电商平台。一、爬取分析亚马逊全部商品接口为:https://www.amazon.cn/gp/site-directory/ref=nav_deepshopall_variant_fullstore_l1 ,通过该接口可以获取到需要的分类商品信息。和之前一样,分为大分类、中分类、小分类,一...原创 2019-03-18 11:25:22 · 8792 阅读 · 3 评论 -
模拟登录淘宝--Python
淘宝–模拟登录使用pyppeteer模拟登录淘宝,获取cookie。代码# -*- coding: utf-8 -*-import asynciofrom pyppeteer import launchimport timefrom retry import retry # 设置重试次数用的count = 1async def main(username, p...原创 2019-06-24 09:55:22 · 1443 阅读 · 0 评论 -
基于selenium的拉勾网职位信息爬取
基于selenium的拉勾网职位信息爬取拉勾网职位信息爬取,采用selenium自动化爬取。做一些简单的分析。运行环境1、python3.62、主要包:selenium、pymongo3、mongodb数据库主要代码由于很简单,下面直接放上爬虫代码。# coding=utf-8from selenium import webdriverfrom selenium.webdri...原创 2019-07-10 17:55:01 · 375 阅读 · 0 评论