自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

1.02^365=1377.41 (Lucene、ES、ELK开发交流群: 370734940, 公众号:搜索算法)

Engineers are versatile minds who create links between science, technology, and society

转载 BPE算法

BPE,(byte pair encoder)字节对编码,也可以叫做digram coding双字母组合编码,主要目的是为了数据压缩,算法描述为字符串里频率最常见的一对字符被一个没有在这个字符中出现的字符代替的层层迭代过程。具体在下面描述。该算法首先被提出是在Philip Gage的C Users...

2020-04-19 16:18:19 54 0

原创 统计机器学习-4-三维绘图

用python绘制三维函数图像: Z=X2+Y2 Z = X^2 + Y^2 Z=X2+Y2 import matplotlib as mpl from mpl_toolkits.mplot3d import Axes3D import numpy as np import matplotlib....

2019-10-19 20:15:24 89 0

原创 统计机器学习-3-numpy100题

numpy 100道练习题 这100道练习题从numpy的mailing list、Stack Overflow和numpy官方文档收集而来,其目的是提供一个快速入门的参考文档为numpy学习者,也可以用作教学练习题。 如果你发现错误或者有更好的解法,欢迎在github上提交issue: http...

2019-05-02 00:38:26 632 6

原创 统计机器学习-2-矩阵范数与导数

矩阵基础 矩阵的知识是从行列式而来,矩阵和行列式的区别在于矩阵是一张表,行列式是一个数: (A)[993426719] \begin{bmatrix} 9 & 9 & 3\\ 4 & 2 & 6 \\ 7 &am...

2019-05-01 21:47:20 396 0

原创 统计机器学习-1-统计机器学习基础

一、统计机器学习的研究内容 网络 算法 机器 优化 概率 统计 数据 矩阵 信息 模型 推理 获知识 靠学习 We are drowning in information and starving for knowledge. -John Naisbitt Data -> Mode...

2019-04-28 00:08:54 390 0

原创 jupyter打开.ipynb文件

看到很多python笔记都使用.ipynb格式,第一个问题便是怎么打开这种格式的文件?使用.ipynb格式和使用markdown相比优势在哪里?带着这些疑问整理一篇博客 一、jupyter功能 按百度百科的介绍: Jupyter Notebook(此前被称为 IPython notebook)...

2019-04-27 23:41:14 1167 0

原创 MySQL根据字段名查找数据库名和表名

SELECT DISTINCT TABLE_SCHEMA,TABLE_NAME FROM information_schema.COLUMNS WHERE COLUMN_NAME = '要查找的字段名称'

2019-03-10 16:12:21 545 0

原创 Python 风格规范(Google)

本项目并非 Google 官方项目, 而是由国内程序员凭热情创建和维护。 如果你关注的是 Google 官方英文版, 请移步 Google Style Guide 以下代码中 Yes 表示推荐,No 表示不推荐。 分号 不要在行尾加分号, 也不要用分号将两条命令放在同一行。 行长度 每行不超过8...

2019-02-28 11:05:17 210 0

原创 机器学习之KNN鸢尾花分类

KNN简介 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。 kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于...

2019-02-24 16:34:28 613 0

原创 python处理搜狗新闻数据_140万条

一、文件处理 gzip -d SogouCA.tar.gz tar -xvf SogouCA.tar cat *.txt > SogouCA.txt cat SogouCA.txt | iconv -f gbk -t utf-8 -c > SougouCA_UTF8.t...

2019-02-13 15:35:01 868 0

原创 canal配置

一、MySQL密码策略修改 set global validate_password_policy=0; set global validate_password_length=1; 二、安装canal server CREATE USER canal IDENTIFIED BY 'c...

2019-01-05 15:08:00 256 0

原创 MySQL主从(MS)、主主(MM)复制

一、安装MySQL 5.7 如果安装过mysql,删除 停掉mysql进程: pkill -9 mysqld 删除mysql: rpm -qa|grep -i mysql yum -y remove mysql-community-client-5.6.38-2.el7.x86_64 依次...

2018-12-23 23:12:02 857 1

原创 zookeeper概念、应用场景、数据组织、集群搭建、客户端操作、Java客户端、curator

一、zookeeper简介 1.1 zookeeper简介 Apache的很多项目以动物来命令,比如Hadoop(大象)、Hive(小蜜蜂)、Pig(猪猪),这些项目都是hadoop生态系统的成员。Hadoop生态系统是为了解决大数据存储、大数据计算和大数据数据分析的,解决大数据问题的核心思想是分...

2018-11-23 22:03:54 1076 2

原创 mac安装fabric找不到fabric.api

先卸载再安装低版本: pip uninstall fabric pip install fabric==1.14.0

2018-10-16 16:29:22 1045 0

原创 Lucene索引合并

@Test public void mergeIndex() throws IOException { Analyzer analyzer=new HanLPAnalyzer(); IndexWriterConfig icw = new IndexW...

2018-08-24 15:07:35 399 2

原创 Elasticsearch电商搜索分词效果调优

分词是搜索中非常核心的一步,下面通过一个案例介绍在没有专业分词系统的情况下,如何做分词性能的调优。

2018-08-06 00:17:59 3071 1

原创 javax.jms.JMSException: Could not connect to broker URL: tcp://localhost:61616

spring.activemq.broker-url=tcp://localhost:61616 改为: spring.activemq.broker-url=tcp://0.0.0.0:61616

2018-07-19 20:50:49 3476 0

原创 spring boot获取resource目录下文件

Resource resource = new ClassPathResource("resource目录下的文件路径"); File file = resource.getFile(); 例如:resource目录下: a/1...

2018-07-14 23:38:23 28022 5

原创 spring boot 工程创建、常用注解、控制器、模板引擎使用

最近要狂补Spring boot了,总结一下相关知识点。 一、工程创建与运行 访问:http://start.spring.io/ 按如图所示,配置好项目信息,生成project。 Dependencies里面选择项目依赖,一般初始化工程的时候加上web即可。 解压下载好的代码,...

2018-07-02 14:01:35 361 0

原创 Elasticsearch 同义词配置

什么是同义词就不用说了,直接说怎么实现。 测试环境:ES 5.5.1 一、同义词词库 准备一个同义词词库,每行一个同义词词组,例子syno.dic: 西红柿,番茄,tomato 马铃薯,土豆 二、配置分析器 DELETE syno PUT syno { "...

2018-06-27 10:29:56 2333 2

原创 StringUtils中的常用方法

StringUtils.hasText(str) 如果字符串里面的值为null, “”, ” “,那么返回值为false;否则为true containsWhitespace(str) 是否包含空格

2018-06-27 09:47:19 266 0

原创 解决ES-Hadoop打包报错“Mkdirs failed to create /var/folders...”问题

一、报错问题 在mac下运行ES-Hadoop项目,报错如下: Bee:eshadoop bee$ hadoop jar target/eshadoop-1.0-SNAPSHOT-jar-with-dependencies.jar /work/blog.json Exception in th...

2018-05-21 13:08:43 1079 0

原创 Elasticsearch Java API(十三)--Java API获取分词结果

需求 Java API获取Elasticsearch的分词结果. 版本 Elasticsearch 5.4 已安装ik分词器 测试 先创建一个索引: curl -XPUT localhost:9200/bbb 返回结果: { "acknowledge...

2018-05-02 20:18:31 3792 0

原创 Elasticsearch Java API(十二)--搜索时指定分析器

一、问题 今天群里一个同学提了一个问题,如何在搜索时指定分析器,实现自由切换。 二、分析 我们知道,分析器是写在mapping里面的,通过配置analyzer来指定的。如果没有额外的配置,analyzer中指定的分析器,既是索引期的分析器,又是搜索期的分析器。单独指定搜索期的分析器可...

2018-05-02 19:46:29 1180 0

原创 SHELL编程(三) sed和awk的用法

1.sed 1.1 sed的作用 1.2 显示文件的第n行 1.3 显示文件前n行 1.3 显示前n行以外的内容 1.4 显示文件第n后和之后的m行 1.5 在第n行前面插入内容 1.6 替换文件的第n行 1.7 在文件的最后插入行 1.8 复制粘贴 1.9 删除空行 1.10 查找并保存 ...

2018-05-01 19:53:09 312 0

原创 SHELL编程(二) 按天备份mysql数据库脚本

#!/bin/bash ######################## # # mysql auto backup # ######################## BACKUPDIR=/opt/bee/shtest/data/` date +%Y-%m-%d ` #数据库备份路径 M...

2018-04-29 23:23:39 265 0

原创 SHELL编程(一) 基础语法

一、基本语法 1.1 入门例子 1.2 shell变量 1.2.1 永久变量 1.2.2 临时变量 1.2.3单引号和双引号 1.2.4 变量管理 1.2.5 位置变量和特殊变量 1.3 read命令 1.4 expr命令 1.5 变量测试语句 1.6 if判断语句 1.7 case...

2018-04-29 19:54:26 280 1

原创 Elasticsearch 5.4新闻搜索项目实战

0基础入门实战课程! 视频教程 课程地址:http://edu.csdn.net/course/detail/5578

2018-04-25 22:12:00 6785 6

原创 字典序算法与全排列问题(时间复杂度O(N))

给定一个不重复数组组成的数组,比如{1,2,3},按照从小到大的顺序组成的全排列整数有6个:123、132、213、231、312、321,这6个数字都是换位数,即组成的数字一样,只是位置不一样而已。 一、最近最大换位数 首先解决第一个问题,如何找到给定整数,离它最近且比它大的换位数。比如...

2018-04-10 13:07:35 3148 0

原创 解决CentOS默认JDK无法替换问题

在Centos上安装jdk,在/etc/profile中设置好了JAVA_HOME,source之后依然不生效,java -version命令测试一直提示JDK版本为1.5: [root@Hadoop-DN-08]# java -version java version "1.5....

2018-04-09 12:39:52 924 0

原创 elasticsarch 6安装遇到的问题集锦

1.不能以root用户运行 org.elasticsearch.bootstrap.StartupException: java.lang.RuntimeException: can not run elasticsearch as root 新建用户,非root运气。 2.JDK不能低...

2018-04-09 12:32:35 490 0

原创 Elasticsearch和Kibana安装X-Pack

一、Elasticsearch安装X-PACK 安装命令: bin/elasticsearch-plugin install x-pack 默认用户名:elastic 默认密码:changeme 访问9200端口需要输入用户名和密码: 二、Kibana安装X-pack ...

2018-03-29 13:39:20 3272 1

原创 ELK日志处理之metricbeat服务器性能监控

一、需求 监控服务器的CPU使用率、内存使用情况、线程数等机器物理性能,类似于Windows的资源管理器功能。 二、解决方案 使用Elastic公司的Metricbeat,Metricbeat和Filebeat一样,是一个轻量级的采集器,不但可以监控服务器的性能指标,还可以监控运行在服务...

2018-02-01 21:31:10 11473 4

原创 【死磕算法系列】两个有序数组的公共部分

【死磕算法】 两个有序数组的公共元素 问题提出 给定有序数组A和有序数组B,数组长度分别为M和N,求数组的公共元素。例如: A = {0, 1, 4, 9, 10} B = {1, 4, 8, 9, 11} A和B的公共元素为1,4,9 一、最容易解...

2018-01-29 14:38:57 475 1

原创 Elasticsearch 6 新特性与重要变更解读

2017年11月14日,Elastic Stack 6.0正式亮相,这篇文章总结Elasticsearch 6.0版本的一些新的特性和重要改变,根据官网文档,变更部分包括下列部分,下面一一说明。 Aggregations changes Cat API changes Clients cha...

2018-01-25 13:52:03 14003 4

原创 mac(Linux)安装配置kafka环境

mac(Linux)安装配置kafka环境 导读 本文介绍如何在Mac系统上安装和配置kafka环境,也适用于Linux系统,强烈不建议在Windows环境下尝试本博客。 软件环境说明如下: 操作系统:OS X 10.10.3 JDK版本: 1.8 ...

2018-01-14 01:42:26 1812 1

原创 Intellij Idea设置代码的注释信息

导读:在Java开发中给每个类加上作者信息、创建时间等版本信息,对于后期的维护、别人阅读代码都很有益处。 Intellij Idea中设置类的注释信息的方法如下。 Intellij Idea ->Preference ->Editor->File and code Temp...

2018-01-07 15:00:23 1768 0

原创 解读Elasticsearch分析器中的重要术语

导读:Elasticsearch分析器中的Analysis、Analyzer、Tokenizer、Token Filter、Character Filter,你知道是什么含义吗? 一、什么是Analysis ? Analysis翻译为分析器,其功能是把文本切分成词项(词项是倒排索引中的基...

2018-01-07 02:15:08 968 0

原创 ELK 日志处理开发指南

ELK 是 Elastic 公司出品的开源实时日志处理与分析解决方案,ELK 分别代表分布式搜索引擎 Elasticsearch、日志采集与解析工具 Logstash、日志可视化分析工具Kibana,具有配置方式灵活、集群可线性扩展、日志实时导入、检索性能高效、可视化分析方便等优点,已经成为业界日...

2018-01-03 17:17:34 1713 0

原创 【死磕算法系列】平衡二叉树的判定

平衡二叉树的一个重要性质:左子树和右子树的树高的差的绝对值小于等于1。 Java实现: public int treeDepth(TreeNode node) { if (node == null) { return 0; }...

2017-12-25 01:07:46 277 0

提示
确定要删除当前文章?
取消 删除