自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SuperDuDu的博客

当能力满足不了自己的野心,那就好好学习吧!

  • 博客(29)
  • 资源 (2)
  • 收藏
  • 关注

原创 基于ElasticSearch实现图片的相似性(二)

本文实现ElasticSearch6.5的插件编写,因为ElasticSearch6.0和6.5在插件上做了细化核心代码package org.elasticsearch.plugins;import org.apache.lucene.index.LeafReaderContext;import org.elasticsearch.common.settings.Settings;...

2019-10-24 17:18:13 616

原创 基于ElasticSearch实现图片的相似性(一)

部分代码参考: https://www.cnblogs.com/whb-20160329/p/10472717.html思路基于java去实现图片的相似性,比较可行的有几种方式:使用shiro的lire插件实现图片的相似性使用Elastic+phash实现图片的相似性,需要自己编写一个评分插件是否使用Mongo来进行相似性查找,(待定)实现方式获取图片的pHashjava提取图...

2019-10-21 15:58:47 1610

原创 nutch采集部署

nutch的限制:不能采集js动态加载页面内容和分页,对非动态js加载的分页,需要根据分页的情况,来进行设置爬取深度(分页与爬取深度存在关系)。这就限制了nutch全爬取存在很大的局限性,nutch本身要遵守robot协议,如果网址本身不允许被爬取,那么将不会被爬取。nutch2.2.1部署环境要求:系统:Centos7.5运行环境:java1.8数据库:mysql5.7编译环境...

2020-04-02 14:37:46 507 1

原创 网盘调研 

调研网址github/gitee,知乎,企业网站调研产品kiftd(开源软件):网址:https://gitee.com/kohgylw/kiftd?_from=gitee_search实现文件上传,但是不能实现,数据秒传 可以时间文件的组内共享。 可以生成下载接口地址,提供在线下载 平台内部集成图片、pdf和视频的插件,实现图片和视频在线查看。 本地文件系统存储亿方...

2020-03-26 13:38:03 820

转载 DS开发环境搭载

设计特点:一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。 其主要目标如下:以DAG图的方式将Task按照任务的依赖关系关联起来,可实时可视化监控任务的运行状态支持丰富的任务类型:Shell、MR、Spark、SQL(mysql、postgresql、hive、sparksql),Python,Sub_Pro...

2020-03-04 17:55:52 853

原创 socket查看zookeeper情况(4字命令)

public class FourLetterWordMain { private static final int DEFAULT_SOCKET_TIMEOUT = 5000; protected static final Logger LOG = LoggerFactory.getLogger(FourLetterWordMain.class); /** ...

2020-02-27 22:59:38 460

翻译 大数据产品最新测试基准看哪家(TPC-H or TPC-DS)?

前言Hadoop的出现让人们尝到了大数据技术的甜头,它的批处理能力已经被工业界充分认可,但是它的延迟性也一直为大家所诟病。随着各行各业的发展,越来越多的业务要求大数据系统既可以处理历史数据,又可以进行实时计算。比如电商推荐系统,当你在京东浏览商品时,京东会根据你的浏览、加车、收藏、删除等行为,实时为你推荐商品。要实现这个功能,推荐引擎首先需要根据历史数据预先离线计算推荐模型,然后从消息队列中实时...

2020-02-06 12:59:35 1060

原创 前后端非对称加密,解决http明文传输

后台加密解密的工具类package com.sdyy.cas.utils;import org.apache.commons.codec.binary.Base64;import javax.crypto.Cipher;import java.math.BigInteger;import java.security.*;import java.security.interfaces...

2020-01-15 16:12:18 8427

原创 防止Xss脚本攻击(XssFilter)

配置文件package com.sdyy.cas.config;import com.google.common.collect.Maps;import com.sdyy.cas.filter.XssFilter;import org.springframework.boot.web.servlet.FilterRegistrationBean;import org.springfra...

2020-01-15 16:05:25 684

原创 Java调用ElasticSearch自定义的评分插件

之前,使用phash做了一个基于ElasticSearch的图片相似性的项目,需要自己写一个评分插件,在kibana中用es的语句查询,没有问题,现在要集成到java项目中kibana中查询语句GET test_index/_search{ "from": 0, "size": 10, "min_score":80, "query": { "function_...

2020-01-15 15:53:17 1450 1

原创 文件监听同步(watchservice)

watchserviceprivate void startCatalogWatcher(File catalogConfigurationDir) throws IOException, InterruptedException { WatchService watchService = FileSystems.getDefault().newWatchService(...

2020-01-15 15:52:17 326

原创 文件监听同步(canal 搭建)

参考文档https://github.com/alibaba/canal/wiki/QuickStartmysql开启bin-log日志log_bin = /var/lib/mysql/bin-logskip-name-resolvebinlog-format=ROW创建canal对象CREATE USER canal IDENTIFIED BY 'canal'; GRANT...

2020-01-15 14:00:12 980

原创 文件监听同步(lsyncd)

使用lsyncd实现多台机器的文件同步多台机器的ssh互信ssh-copy-id 对方的机器IP或者主机名下载安装lsyncdyum install http://rpmfind.net/linux/epel/7/x86_64/Packages/l/lsyncd-2.2.2-1.el7.x86_64.rpm配置lsyncd.conf文件vi /etc/lsyncd.conf #修改...

2020-01-15 10:50:05 510

原创 mysql集群双活+高可用

mysql双主部署+keepalived 安装mysql(此处使用二进制,还可以用 rpm包安装 或 mysql编译安装)https://blog.csdn.net/u012562411/article/details/85220783 0.卸载原来版本mysql或mariadbrpm -e mariadb-libs --nodeps1.进入/usr/local,下载tar包w...

2019-12-25 19:30:21 1991

原创 Redis4集群搭建操作记录

cp -r /etc/yum.repos.d /etc/yum.repos.d.bakrm -rf /etc/yum.repos.d/*cd /etc/yum.repos.d/ && vi CentOS-Base.repo*************************# CentOS-Base.repo## The mirror system uses the co...

2019-12-25 19:28:17 131

原创 presto(三) presto的MPP架构

2019-12-03 13:23:10 1088

原创 git文件上传

注册git账号略生成ssh-keyssh-keygen -t rsa -C "xxxx@xx"配置文件git config --user.name ="xx"git config --user.email ="xxx@xx"上传git文件进入 文件夹cd xxx创建初始化文件git init创建README文件touch README.md 添加README文件...

2019-12-03 13:14:48 122

转载 java 列表或数组按指定大小分组

原文链接:https://blog.csdn.net/abc5232033/article/details/75453170import java.util.ArrayList;import java.util.Arrays;import java.util.List; /** * 列表或数组按指定大小分组,用于批量取一部分数据循环处理 * */public class Arra...

2019-11-21 14:34:02 1386

原创 基于云打码的验证码识别

class YDMHttp(object): apiurl = 'http://api.yundama.com/api.php' username = '*************1' password = '**************' appid = 9079 appkey = '********************' def __ini...

2019-11-20 10:03:07 434

原创 基于Tesseract-OCR的验证码识别

先上代码必须现在电脑上按照Tesseract-OCR,下载地址:链接:https://pan.baidu.com/s/1FBA2lXKdQeYGn3gWC3vBoQ提取码:zaopfrom PIL import Imageimport pytesseractfrom PIL import ImageEnhancepytesseract.pytesseract.tesseract...

2019-11-15 11:26:03 306

原创 presto(二) presto部署

Presto介绍presto查询环境搭建presto组件下载下载(server和cli):https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.212/presto-server-0.212.tar.gzhttps://repo1.maven.org/maven2/com/facebook/presto/p...

2019-11-11 13:28:19 770

原创 presto(一) presto概述

presto背景及发展长话短说,大数据时代,hadoop的解决方案,解决了完美的大数据存储和很好的解决了计算的问题,但是由于hadoop采用的是一套MR的解决方案,这就导致hadoop可以解决大批量的离线计算问题但是不能很好的解决AC-hoc的问题,faceBook开源了prestopresto的特点多数据源支持sql支持混合查询拓展性混合计算高性能内存计算,流水线pres...

2019-11-05 19:03:45 1866

原创 Echars y轴和饼状图 格式化

y轴 展示格式化 yAxis: { name: '', type: 'value', nameRotate: 1, splitLine: { show: true, lineStyle: { ...

2019-11-05 17:32:37 222

原创 MYSQL sql随笔持续更新

一行sql根据某个字段拆分成多个示例:未处理前:处理后:代码: 技术点:使用substring_index 2次,间隔“,”和“:”,提出自己想要的SELECT substring_index( substring_index( menuData.dataResource_source_table, ',', b.help_topic_id + 1 ), ':',- 1...

2019-10-28 19:33:18 101

原创 Navicat12注册

https://github.com/DoubleLabyrinth/navicat-keygen/blob/windows/doc/how-to-use.windows.zh-CN.md

2019-10-21 14:35:26 854 2

原创 mysql在win&linux下安装

在win64下安装mysql的zip包mysql国内镜像 mysql国内镜像解压mysql到指定文件夹,并创建data文件夹[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TR1torZS-1571386835038)(mysql安装win64zip_files/1.jpg)]创建my.ini (如果不存在)[mysqld]port = 3306base...

2019-10-18 16:24:20 147

原创 python开发爬虫随笔

写在文档之前的一句话哎!Boss说要搞20台采集集群,传统的java爬虫,真的没啥好用的,webmagic,gecco的都用过,很早之前,接触过scrapy,感觉python的scrapy实现分布式爬虫很爽,没办法,一大把年纪了,是否要搞搞python,以后和boss交流的时候,还能怼他几句,多么单纯的想法。python解释器(这些东西没啥用就是吹nb用的)python的解释器:1.cp...

2019-10-18 16:08:11 406

原创 Ambari大数据平台安装

机器情况机器 版本 主机名10.20.12.24 CentOS Linux release 7.5.1804 (Core) master.bigdata.com10.20.12.27 CentOS Linux release 7.5.1804 (Core) slave2.bigdata.com10.20.12.26 CentOS Linux release 7.5.1804 (Core) ...

2019-10-18 15:49:08 421

原创 FastDFS安装部署,通过nginx支持缩略图

FastDFS安装部署选取3台机器10.20.5.112 trackerServer10.20.5.113 storageServer (group1)10.20.5.114 storageServer (group1)防火墙关闭 selinux关闭略访问余大的GitHub网址下载对应的安装包github网址:(https://github.com/happyfish100)[外...

2019-10-18 15:26:22 279

一套UI的Axure8的元件库

一套UI的Axure8的元件库,搭建可以下载下来,方便自己的原型图设计

2019-05-13

数据治理.zip

汇总整理了25个关于数据治理的PPT,涉及很多大厂的数据治理案例。

2019-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除