东俊-CSDN博客

原创 ES分页查询的方案

ES分页查询方案一 from、size：最简单的方案，使用from、size进行分页查询.GET index1/_doc/_search{ "query":{ "match_all":{} } , "_source":["filed1","filed2","time_sort"], "sort":[ { "time_sort":{ "order":"desc" } }], "from":100, "s

2021-07-05 16:16:18 679

原创 ES6.x ik分词器配置（startOffset must be non-negative, and endOffset must be ＞= startOffset, and offsets...

ES6.x ik分词器配置在使用ES6.8.x插入数据时，ik分词器报以下错误{ "error": { "root_cause": [ { "type": "illegal_argument_exception", "reason": "startOffset must be non-negative, and endOffset must be >= startOffset, and offsets must not go backward

2021-07-01 11:24:14 3005 1

原创 sql函数踩坑——返回值跟独立执行查询语句结果不符

sql函数踩坑——返回值跟独立执行查询语句结果不符今天使用sql语言格式创建的函数执行查询一直获取不到想要的结果，函数是这样创建的：一开始我想会不会是我查询语句写错了，于是我单独执行了一下发现结果是正确的。这就排除了sql本身的错误，再排除当前数据库的环境问题，那只能是创建的时候函数语法发生了错误。这时我发现在数据库连接工具中sql所有颜色区分的，其中state明显是sql语法内置的关键词，那我更改一下参数的名字：结果就返回正确了，那么问题真的是这样的吗？我再次观察，发现并不是这样的，真正的

2021-06-29 10:06:09 678

原创基于单列去重的多列查询

基于单列去重的多列查询测试表的结构和数据distinct无法满足需求distinct on实现基于一列的去重测试表的结构和数据distinct无法满足需求select distinct author, file, content from file_table;如上图，使用distinct会对select中的所有列，即author、file、content三个合并起来后去重，而不是对一个author去重；因此，如果将distinct后移，放到第二个列前面，还会提示语法错误。distinct

2021-06-28 13:59:56 234

原创补充：邮件监控和计算机定时任务

邮件监控和计算机定时任务补充：邮件监控补充：Windows 系统启动定时任务方法补充：邮件监控以qq邮箱为例，用惯了。先开启qq软件转发的权限：拿到授权码，下面的代码有用，最好永久保存一下，毕竟每次都发验证码也挺烦的。示例代码：import requestsfrom lxml import etreefrom email.mime.text import MIMEText#邮件正文import smtplib #连接qq服务器def get_infos(url): '''

2020-07-22 22:39:40 285

原创第十四讲 Scrapy-redis 分布式

Scrapy-redis 分布式redis的安装客户端和服务命令redis数据scrapy-redis分布式原理scrapy部署流程使用分布式来加快爬的速度。—大数据。redis的安装将压缩包解压到指定目录，就安装好了。配置环境变量测试是否安装成功，在cmd中输入redis-server：客户端和服务命令配置文件如下：redis数据这部分有很多比较详细的文档可以查阅参考。scrapy-redis分布式原理指纹集合作用和原理：任务队列原理：使用的数据结构为有序集合zset，

2020-07-22 22:26:15 128

原创第十三讲 Scrapy中间件

Scrapy中间件scrapy的框架图如何设置中间件scrapy的框架图spiders组件：爬虫组件，负责从response中提取数据，还负责url（request）发送scrapy engine：引擎负责各个组件的通信下载器：引擎发送过来的request进行下载，之后交给spiderscheduler：调度器，主要负责request入队和出队下载中间件进入的数据：从调度器出来的request出来的数据：request，但是这个request马上要被下载器下载了请求在下载之前，我们可以

2020-07-22 21:41:25 395

原创第十二讲 Scrapy初步

Scrapy初步scrapy爬虫框架基本介绍scrapy开发流程scrapy爬虫框架基本介绍scrapy开发流程下载scrapy插件，使用镜像源和管理员身份下载。pip install scrapy案例开发1、新建项目scrapy startproject 项目名执行后会在该目录下创建该项目：2、新建spider–爬虫模板新建之前，先进入项目目录下（hupu），接下来所有的操作，都是在这个scrapy项目的目录下完成的：scrapy genspider [py文件的名称]

2020-07-21 21:59:08 178

原创第十一讲多线程爬虫

多线程爬虫程序进程和线程之间的关系对多线程和多进程的理解线程状态pymongo写入mongo线程创建方法程序进程和线程之间的关系对多线程和多进程的理解以上内容只做简单总结，不理解的可以查阅其他文章。线程状态堵塞状态线程想要重新运行先要加入就绪队列线程一旦阻塞，造成线程调度混乱；线程的执行状态是无法控制的。线程的执行状态是混乱的想要有序，需要使用队列队列的作用对象不是线程，而是任务pymongo写入mongo在这里插入一个知识点，方面理解下面的程序：host和port有默认值

2020-07-21 21:06:15 6119

原创 Fiddler缓存app数据

Fiddler缓存app数据（一）配置首先需要一个安卓模拟器，这里使用夜神模拟器，设置Fiddler为代理IP：Fiddler配置也需要修改为app抓包：在Tools下的Options中设置HTTPS和Connections（二）分析然后模拟下载一个视频APP，这里使用梨视频：然后在Fiddler中查看文件：（三）缓存脚本接下来，我们要编写Fiddler脚本来缓存json数据文件，从而获得videos的url，脚本在Rules下的Customize rules进行编写：

2020-07-19 15:14:14 651

原创第十讲 NoSQL和MongoDB

NoSQL和MongoDBNoSQL（Not Only SQL）MongoDB安装配置MongoDB的客户端和服务端命令NoSQL（Not Only SQL）（一）NoSQL 简介首先了解sql --结构化查询语言，专门用来处理我们关系型数据库数据。nosql指的是非关系型的数据库，不同于传统的关系型数据库的数据库管理系统的统称。非关系型数据库是数据革命的原因：现在互联网数据的形式比较多样，而且内容是比较丰富。这种庞杂的数据如果使用关系型数据库来存储，开销就会极大，而且速度慢。非关系型数据

2020-07-18 14:33:59 370

原创第九讲 Fiddler简单介绍和音频下载

Fiddler安装和配置、简述Fiddler 工具Fiddler案例Fiddler 工具（一）Fiddler 原理（二）Fiddler的工作模式（三）Fiddler的安装和配置（四）fiddler界面功能介绍Fiddler案例（一）qq免费音乐下载练手，这个案例que’shi...

2020-07-18 11:59:02 1100

原创第八讲案例

第八讲案例有道翻译js加密有道翻译js加密

2020-07-17 21:38:49 660 1

原创第八讲 JS、CSS、Base64解密

JS、CSS、Base64解密js加密js加密js加密目标：参数加密。通过分析js或者ajax接口，分析目标就是接口的参数。（一）参数一般从哪里取找有可能出现之前分类类别信息中。—在页面信息中。有可能之前发送一些ajax请求，在这些请求的结果中找到参数，进行下次的ajax请求发送通过js加密，进行参数伪装。–js加密不一定能破解。...

2020-07-17 16:11:25 421

原创第七讲案例

第七讲案例豆瓣登录博客园登录验证码豆瓣登录这里不直接选择官网登录页面，为了页面跳转好判断。首先登录进去，进入个人主页，退出账号就获得了我们测试的页面。去掉？后面的参数https://accounts.douban.com/passport/login这里当前页面和跳转页面的标题是不同的，可以作为验证通过的条件进行判断。验证程序主要进行了以下几步：完整代码如下，新知识主要是鼠标操作和移动算法，在上文中进行了简要讲解，其余部分有较为齐全的注释，不再过度解读：from selenium impor

2020-07-15 22:45:58 298

原创第七讲验证码高级---滑动验证码破解(页面中更改元素属性值显示原图的案例）

验证码高级---滑动验证码破解破解思路（技术要点）iframe标签破解思路（技术要点）这里只讲一讲思路和基本的实现方式，程序如何编写请参考下一文案例。由简入难：（一）滑块如何拖动，鼠标操作如何实现ActionChains是selenium里面专门处理鼠标相关的操作如：鼠标移动，鼠标按钮操作，按键和上下文菜单（鼠标右键）交互。这对于做更复杂的动作非常有用，比如悬停和拖放。导包：from selenium.webdriver.common.action_chains import ActionCh

2020-07-15 22:08:39 779

原创第六讲案例

第六讲案例使用selenium手动打码百度AI文字识别辅助打码使用selenium手动打码本案例使用的网站是国家发票查验平台，需要使用IE浏览器才能正常访问，因此请按照第六讲中的教程完成相关配置。在者准备一张发票，京东电子发票即可。https://inv-veri.chinatax.gov.cn/该案例除了配置IE浏览器外，主要有两点：实践显示等待的语法wait.until(EC.presence_of_element_located((By.XPATH, '//td[@id="imgarea

2020-07-15 15:51:13 682

原创第六讲破解验证码初级

破解验证码初级selenium的等待图片验证码使用selenium调用IE浏览器破解图片验证码的三种方式selenium的等待后面的案例中，我们通常使用显示等待，这里简单讲一下使用方法：首先导入包：from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWait # 显示等待对象from selenium.webdriver.support import expected_condi

2020-07-14 22:20:49 460

原创第五讲案例

第五讲案例驱动浏览器获取豆瓣评书内容LOL斗鱼直播间信息驱动浏览器获取豆瓣评书内容首先百度豆瓣读书，进入官网，搜索python使用开发者工具进行操作。https://search.douban.com/book/subject_search?search_text=python&cat=1001&start=%s要求获取每一页的python读物的信息这里我们并不知道一共有多少页，可以使用while循环条件判断，当获取的读物的内容列表为空时代表结束。1、导包，需要驱动、强制等待、截

2020-07-14 21:24:08 186

原创第五讲动态HTML处理（selenium，phantomjs，chrome配置和操作）

这里写目录标题反爬与爬虫之js异步三、Selenium 数据获取反爬与爬虫之js异步（一）反爬措施：改变网页数据获取架构。数据不在页面直接渲染，而是通过前端js异步获取。js获取到数据需要：执行js才可以，即通过浏览器触发Ajax事件。但是使用requests模块获取到的js代码并不能执行。—js代码只包含Dom和Bom命令，并没有我们需要的数据。解决的办法：如果能找到一个执行js的工具，是不是数据就出来了。浏览器中之所能够出现数据是因为浏览器就有执行js的功能。同时我们python也有两个工具。

2020-07-13 22:15:13 241

lxd1908717401的博客

原创 ES分页查询的方案

原创 ES6.x ik分词器配置（startOffset must be non-negative, and endOffset must be ＞= startOffset, and offsets...

原创 sql函数踩坑——返回值跟独立执行查询语句结果不符

原创基于单列去重的多列查询

原创补充：邮件监控和计算机定时任务

原创第十四讲 Scrapy-redis 分布式

原创第十三讲 Scrapy中间件

原创第十二讲 Scrapy初步

原创第十一讲多线程爬虫

原创 Fiddler缓存app数据

原创第十讲 NoSQL和MongoDB

原创第九讲 Fiddler简单介绍和音频下载

原创第八讲案例

原创第八讲 JS、CSS、Base64解密

原创第七讲案例

原创第七讲验证码高级---滑动验证码破解(页面中更改元素属性值显示原图的案例）

原创第六讲案例

原创第六讲破解验证码初级

原创第五讲案例

原创第五讲动态HTML处理（selenium，phantomjs，chrome配置和操作）

原创第四讲案例

原创第四讲 Xpath语法

原创第三讲案例

原创第三讲正则表达式

原创第二讲案例

原创第二讲模拟登录与代理IP

原创 python使用xlwt与xlrd模块将数据存储到Excel文件

原创第一讲案例

原创第一讲爬虫和数据

空空如也

空空如也