自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

1.02^365=1377.41 (Lucene、ES、ELK开发交流群: 370734940, 公众号:搜索算法)

Engineers are versatile minds who create links between science, technology, and society

  • 博客(248)
  • 资源 (32)
  • 论坛 (12)
  • 收藏
  • 关注

转载 BPE算法

BPE,(byte pair encoder)字节对编码,也可以叫做digram coding双字母组合编码,主要目的是为了数据压缩,算法描述为字符串里频率最常见的一对字符被一个没有在这个字符中出现的字符代替的层层迭代过程。具体在下面描述。该算法首先被提出是在Philip Gage的C Users Journal的 1994年2月的文章“A New Algorithm for Data Compr...

2020-04-19 16:18:19 136

原创 统计机器学习-4-三维绘图

用python绘制三维函数图像:Z=X2+Y2Z = X^2 + Y^2Z=X2+Y2import matplotlib as mplfrom mpl_toolkits.mplot3d import Axes3Dimport numpy as npimport matplotlib.pyplot as pltfig = plt.figure()ax = fig.gca(proje...

2019-10-19 20:15:24 152

原创 统计机器学习-3-numpy100题

numpy 100道练习题这100道练习题从numpy的mailing list、Stack Overflow和numpy官方文档收集而来,其目的是提供一个快速入门的参考文档为numpy学习者,也可以用作教学练习题。如果你发现错误或者有更好的解法,欢迎在github上提交issue: https://github.com/rougier/numpy-1001.如何导入numpy包?impo...

2019-05-02 00:38:26 817 6

原创 统计机器学习-2-矩阵范数与导数

矩阵基础矩阵的知识是从行列式而来,矩阵和行列式的区别在于矩阵是一张表,行列式是一个数:(A)[993426719] \begin{bmatrix} 9 & 9 & 3\\ 4 & 2 & 6 \\ 7 & 1 & 9 \end{bmatrix} \tag{A}⎣⎡​947...

2019-05-01 21:47:20 466

原创 统计机器学习-1-统计机器学习基础

一、统计机器学习的研究内容网络 算法 机器 优化 概率 统计数据 矩阵 信息 模型 推理获知识 靠学习We are drowning in information and starving for knowledge. -John NaisbittData -> Model -> Knowledge二、机器学习与应用统计学对比MLSTATISTICS...

2019-04-28 00:08:54 500

原创 jupyter打开.ipynb文件

看到很多python笔记都使用.ipynb格式,第一个问题便是怎么打开这种格式的文件?使用.ipynb格式和使用markdown相比优势在哪里?带着这些疑问整理一篇博客一、jupyter功能按百度百科的介绍:Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。Jupyter Notebook 的本质是一个 ...

2019-04-27 23:41:14 1599

原创 MySQL根据字段名查找数据库名和表名

SELECT DISTINCT TABLE_SCHEMA,TABLE_NAME FROM information_schema.COLUMNS WHERE COLUMN_NAME = '要查找的字段名称'

2019-03-10 16:12:21 1020

原创 Python 风格规范(Google)

本项目并非 Google 官方项目, 而是由国内程序员凭热情创建和维护。如果你关注的是 Google 官方英文版, 请移步 Google Style Guide以下代码中 Yes 表示推荐,No 表示不推荐。分号不要在行尾加分号, 也不要用分号将两条命令放在同一行。行长度每行不超过80个字符以下情况除外:长的导入模块语句注释里的URL不要使用反斜杠连接行。Python会将...

2019-02-28 11:05:17 251

原创 机器学习之KNN鸢尾花分类

KNN简介邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一...

2019-02-24 16:34:28 782

原创 python处理搜狗新闻数据_140万条

一、文件处理gzip -d SogouCA.tar.gztar -xvf SogouCA.tarcat *.txt > SogouCA.txtcat SogouCA.txt | iconv -f gbk -t utf-8 -c > SougouCA_UTF8.txt二、数据清理与入库建表:CREATE TABLE `news` ( `id` int(10) NOT ...

2019-02-13 15:35:01 1276

原创 canal配置

一、MySQL密码策略修改set global validate_password_policy=0;set global validate_password_length=1;二、安装canal serverCREATE USER canal IDENTIFIED BY 'canal'; GRANT SELECT, SHOW VIEW, REPLICATION SLAVE, REP...

2019-01-05 15:08:00 350

原创 MySQL主从(MS)、主主(MM)复制

一、安装MySQL 5.7如果安装过mysql,删除停掉mysql进程:pkill -9 mysqld删除mysql:rpm -qa|grep -i mysqlyum -y removemysql-community-client-5.6.38-2.el7.x86_64依次卸载 直到没有yum安装cd /usr/local/src/wget http://rep...

2018-12-23 23:12:02 959 1

原创 zookeeper概念、应用场景、数据组织、集群搭建、客户端操作、Java客户端、curator

一、zookeeper简介1.1 zookeeper简介Apache的很多项目以动物来命令,比如Hadoop(大象)、Hive(小蜜蜂)、Pig(猪猪),这些项目都是hadoop生态系统的成员。Hadoop生态系统是为了解决大数据存储、大数据计算和大数据数据分析的,解决大数据问题的核心思想是分布式,而分布式系统的开发中一个关键问题是如何解决数据在不同系统之间的一致性问题。zookeeper顾名...

2018-11-23 22:03:54 1136 2

原创 mac安装fabric找不到fabric.api

先卸载再安装低版本:pip uninstall fabricpip install fabric==1.14.0

2018-10-16 16:29:22 1272

原创 Lucene索引合并

@Test public void mergeIndex() throws IOException { Analyzer analyzer=new HanLPAnalyzer(); IndexWriterConfig icw = new IndexWriterConfig(analyzer); icw.setOpenMode(Inde...

2018-08-24 15:07:35 465 2

原创 Elasticsearch电商搜索分词效果调优

分词是搜索中非常核心的一步,下面通过一个案例介绍在没有专业分词系统的情况下,如何做分词性能的调优。

2018-08-06 00:17:59 3889 1

原创 javax.jms.JMSException: Could not connect to broker URL: tcp://localhost:61616

spring.activemq.broker-url=tcp://localhost:61616改为:spring.activemq.broker-url=tcp://0.0.0.0:61616

2018-07-19 20:50:49 4069

原创 spring boot获取resource目录下文件

Resource resource = new ClassPathResource("resource目录下的文件路径"); File file = resource.getFile();例如:resource目录下: a/1.txt获取1.txt文件的方法: Resource resource = new ClassPathResource("a/1....

2018-07-14 23:38:23 29571 5

原创 spring boot 工程创建、常用注解、控制器、模板引擎使用

最近要狂补Spring boot了,总结一下相关知识点。一、工程创建与运行访问:http://start.spring.io/按如图所示,配置好项目信息,生成project。 Dependencies里面选择项目依赖,一般初始化工程的时候加上web即可。解压下载好的代码,用IDEA打开。 新建一个Hello.java的Controller类:package co...

2018-07-02 14:01:35 409

原创 Elasticsearch 同义词配置

什么是同义词就不用说了,直接说怎么实现。测试环境:ES 5.5.1 一、同义词词库准备一个同义词词库,每行一个同义词词组,例子syno.dic:西红柿,番茄,tomato马铃薯,土豆二、配置分析器DELETE synoPUT syno{ "settings": { "analysis": { "filter": { &

2018-06-27 10:29:56 2777 2

原创 StringUtils中的常用方法

StringUtils.hasText(str)如果字符串里面的值为null, “”, ” “,那么返回值为false;否则为truecontainsWhitespace(str)是否包含空格

2018-06-27 09:47:19 312

原创 解决ES-Hadoop打包报错“Mkdirs failed to create /var/folders...”问题

一、报错问题在mac下运行ES-Hadoop项目,报错如下:Bee:eshadoop bee$ hadoop jar target/eshadoop-1.0-SNAPSHOT-jar-with-dependencies.jar /work/blog.jsonException in thread "main" java.io.IOException: Mkdirs failed to c...

2018-05-21 13:08:43 1314

原创 Elasticsearch Java API(十三)--Java API获取分词结果

需求Java API获取Elasticsearch的分词结果.版本Elasticsearch 5.4 已安装ik分词器测试先创建一个索引:curl -XPUT localhost:9200/bbb返回结果:{ "acknowledged":true, "shards_acknowledged":true}好了,现在es里面有一个b...

2018-05-02 20:18:31 4462

原创 Elasticsearch Java API(十二)--搜索时指定分析器

一、问题 今天群里一个同学提了一个问题,如何在搜索时指定分析器,实现自由切换。二、分析我们知道,分析器是写在mapping里面的,通过配置analyzer来指定的。如果没有额外的配置,analyzer中指定的分析器,既是索引期的分析器,又是搜索期的分析器。单独指定搜索期的分析器可以用search_analyzer覆盖。三、解决在搜索时指定分析器,只需要在构造Query的时...

2018-05-02 19:46:29 1433

原创 SHELL编程(三) sed和awk的用法

1.sed1.1 sed的作用1.2 显示文件的第n行1.3 显示文件前n行1.3 显示前n行以外的内容1.4 显示文件第n后和之后的m行1.5 在第n行前面插入内容1.6 替换文件的第n行1.7 在文件的最后插入行1.8 复制粘贴1.9 删除空行1.10 查找并保存1.11 文件重定向2.awk2.1 简介2.2 自定义显示年月日2.3 awk文件操作...

2018-05-01 19:53:09 407

原创 SHELL编程(二) 按天备份mysql数据库脚本

#!/bin/bash########################## mysql auto backup#########################BACKUPDIR=/opt/bee/shtest/data/` date +%Y-%m-%d ` #数据库备份路径MYSQLDB=nowcoder ...

2018-04-29 23:23:39 337

原创 SHELL编程(一) 基础语法

一、基本语法1.1 入门例子1.2 shell变量1.2.1 永久变量1.2.2 临时变量1.2.3单引号和双引号1.2.4 变量管理1.2.5 位置变量和特殊变量1.3 read命令1.4 expr命令1.5 变量测试语句1.6 if判断语句1.7 case流程控制1.8 双小括号的用法1.9 循环语句嵌套1.10 break和continue1.1...

2018-04-29 19:54:26 338 1

原创 Elasticsearch 5.4新闻搜索项目实战

0基础入门实战课程!视频教程课程地址:http://edu.csdn.net/course/detail/5578

2018-04-25 22:12:00 7125 4

原创 字典序算法与全排列问题(时间复杂度O(N))

给定一个不重复数组组成的数组,比如{1,2,3},按照从小到大的顺序组成的全排列整数有6个:123、132、213、231、312、321,这6个数字都是换位数,即组成的数字一样,只是位置不一样而已。一、最近最大换位数首先解决第一个问题,如何找到给定整数,离它最近且比它大的换位数。比如:12534的最近最大换位数是12543,13254的最近最大换位数是13425。为了和原数接近,...

2018-04-10 13:07:35 4183

原创 解决CentOS默认JDK无法替换问题

在Centos上安装jdk,在/etc/profile中设置好了JAVA_HOME,source之后依然不生效,java -version命令测试一直提示JDK版本为1.5:[root@Hadoop-DN-08]# java -versionjava version "1.5.0"gij (GNU libgcj) version 4.4.7 20120313 (Red Hat 4.4....

2018-04-09 12:39:52 1022

原创 elasticsarch 6安装遇到的问题集锦

1.不能以root用户运行org.elasticsearch.bootstrap.StartupException: java.lang.RuntimeException: can not run elasticsearch as root新建用户,非root运气。2.JDK不能低于1.83.[1]: max virtual memory areas vm.max_map_...

2018-04-09 12:32:35 552

原创 Elasticsearch和Kibana安装X-Pack

一、Elasticsearch安装X-PACK安装命令:bin/elasticsearch-plugin install x-pack默认用户名:elastic 默认密码:changeme访问9200端口需要输入用户名和密码:二、Kibana安装X-packbin/kibana-plugin install x-pack登录Kibana的时候输入用...

2018-03-29 13:39:20 3572 1

原创 ELK日志处理之metricbeat服务器性能监控

一、需求监控服务器的CPU使用率、内存使用情况、线程数等机器物理性能,类似于Windows的资源管理器功能。二、解决方案使用Elastic公司的Metricbeat,Metricbeat和Filebeat一样,是一个轻量级的采集器,不但可以监控服务器的性能指标,还可以监控运行在服务区之上的应用信息(eg.Apache、MongoDB、MySQL、Ngnix、PostgreSQL、R...

2018-02-01 21:31:10 12795 4

原创 【死磕算法系列】两个有序数组的公共部分

【死磕算法】 两个有序数组的公共元素问题提出 给定有序数组A和有序数组B,数组长度分别为M和N,求数组的公共元素。例如: A = {0, 1, 4, 9, 10} B = {1, 4, 8, 9, 11} A和B的公共元素为1,4,9一、最容易解法依次从数组A中取数据,挨个到B中去遍历。如果B中有,说明是公共元素,输出;否则就是没有。...

2018-01-29 14:38:57 841 1

原创 Elasticsearch 6 新特性与重要变更解读

2017年11月14日,Elastic Stack 6.0正式亮相,这篇文章总结Elasticsearch 6.0版本的一些新的特性和重要改变,根据官网文档,变更部分包括下列部分,下面一一说明。Aggregations changes Cat API changes Clients changes Cluster changes Document API changes Indice...

2018-01-25 13:52:03 14693 4

原创 mac(Linux)安装配置kafka环境

mac(Linux)安装配置kafka环境导读 本文介绍如何在Mac系统上安装和配置kafka环境,也适用于Linux系统,强烈不建议在Windows环境下尝试本博客。 软件环境说明如下: 操作系统:OS X 10.10.3 JDK版本: 1.8 zookeeper版本:zookeeper-3.4.9 kafka版本:1.0.0 一、

2018-01-14 01:42:26 2006 1

原创 Intellij Idea设置代码的注释信息

导读:在Java开发中给每个类加上作者信息、创建时间等版本信息,对于后期的维护、别人阅读代码都很有益处。Intellij Idea中设置类的注释信息的方法如下。Intellij Idea ->Preference ->Editor->File and code Templates->Includes ->File Header:在FileHeader中声明注释信息,具体内容可以定

2018-01-07 15:00:23 1936

原创 解读Elasticsearch分析器中的重要术语

导读:Elasticsearch分析器中的Analysis、Analyzer、Tokenizer、Token Filter、Character Filter,你知道是什么含义吗?一、什么是Analysis ?Analysis翻译为分析器,其功能是把文本切分成词项(词项是倒排索引中的基本单位)。二、什么是Analyzer?分析器的功能主要是通过分词器(Analyzer)来实

2018-01-07 02:15:08 1141

原创 ELK 日志处理开发指南

ELK 是 Elastic 公司出品的开源实时日志处理与分析解决方案,ELK 分别代表分布式搜索引擎 Elasticsearch、日志采集与解析工具 Logstash、日志可视化分析工具Kibana,具有配置方式灵活、集群可线性扩展、日志实时导入、检索性能高效、可视化分析方便等优点,已经成为业界日志处理方案的不二选择。本场 Chat 我将分享 ELK 日志处理开发指南系列内容:日志处理架构演进

2018-01-03 17:17:34 1835

原创 【死磕算法系列】平衡二叉树的判定

平衡二叉树的一个重要性质:左子树和右子树的树高的差的绝对值小于等于1。 Java实现: public int treeDepth(TreeNode node) { if (node == null) { return 0; } int leftDepth = treeDepth(node.left); ...

2017-12-25 01:07:46 316

java图形界面教程

java图形界面教程,主要介绍java swing开发。

2013-06-02

标点符号用法标准.pdf

标点符号用法标准

2017-06-30

Elasticsearch 5.1.1 java api maven工程 源码下载

Elasticsearch 5.1.1 java api maven工程,完整jar包在es5/target/dependency目录下

2017-04-18

Jackcard相似度的java代码

Jackcard相似度的java代码

2017-04-12

向量空间模型的Java代码

向量空间模型的Java代码

2017-04-12

MapReduce maven工程WordCount例子

介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。

2017-03-30

MapReduce WordCount例子

介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境,WordCount代码。

2017-03-30

java核心技术卷一/卷二(原书第十版)配套源码

java核心技术卷一/卷二(原书第十版)配套源码

2017-03-12

testng-6.8.8.jar

testng框架的jar文件,基于他可以写测试类,比juint强大

2016-10-29

druid-1.0.16.jar

Druid是什么? Druid首先是一个数据库连接池。Druid是目前最好的数据库连接池,在功能、性能、扩展性方面,都超过其他数据库连接池,包括DBCP、C3P0、BoneCP、Proxool、JBoss DataSource。 Druid已经在阿里巴巴部署了超过600个应用,经过一年多生产环境大规模部署的严苛考验。 同时Druid不仅仅是一个数据库连接池,它包括四个部分: Druid是一个JDBC组件,它包括三个部分: 基于Filter-Chain模式的插件体系。 DruidDataSource 高效可管理的数据库连接池。 SQLParser

2016-10-29

百度Elasticsearch实践

百度Elasticsearch实践

2016-10-24

逻辑思维训练500题以及答案

逻辑思维训练500题以及答案 word版本

2016-10-18

gson-2.2.4.jar

GSONjar包,2.2.4版本

2016-10-16

Redis in action 实战 英文版

Redis实战 英文版.pdf

2016-09-08

Redis实战 中文.pdf

Redis实战 中文版

2016-09-08

REDIS 入门指南

REDIS 入门指南.pdf

2016-09-08

Python基础教程(第2版 修订版

Python基础教程(第2版 修订版

2016-08-22

python基础教程第二版(Beginning.Python)

python基础教程第二版 英文版

2016-08-22

宗成庆 自然语言处理 期末试题.pdf

中科院宗成庆 自然语言处理 期末试题

2016-07-11

grunt压缩、合并js/css

grunt压缩、合并js/css

2016-06-15

第一行代码

《第一行代码——Android》是Android初学者的最佳入门书。全书由浅入深、系统全面地讲解了Android软件开发的方方面面。第1章带领你搭建Android开发环境,完成你的第一个Android程序。第2章至第13章完整地讲解了Android开发中的各种基本知识和关键技术,包括四大组件、UI、碎片、广播机制、数据存储、服务、多媒体、网络、定位服务、传感器,以及分布式版本控制系统Git的使用等等。在部分章节会穿插相关技术的高级使用技巧。第14章和第15章则将带领你编写一个完整的项目,教会你如何打包、上架、嵌入广告并获得盈利。《第一行代码——Android》内容通俗易懂,既适合初学者循序渐进地阅读,也可作为一本参考手册,随时查阅。

2016-06-12

信息检索导论_王斌译_课后习题答案

现代信息检索导论_王斌译_课后习题答案

2016-05-03

ssh读取新闻

使用eclipse搭建ssh新闻发布系统,基于struts2.3、 hibernate4、spring4.3,读取新闻数据到前台

2016-01-23

ssh新闻发布系统环境搭建

使用eclipse搭建ssh新闻发布系统,基于struts2.3、 hibernate4、spring4.3

2016-01-21

recommend.py

基于系统过滤的推荐算法,实现user-user、item-item推荐,计算欧几里德距离、皮尔逊相关度。

2015-12-31

SSH框架代码

struts 2.3.4、spring 4.2.3、hibernate4.3.11搭建ssh开发框架

2015-12-15

ssh框架整合实例

整合sping、struts2、hibernate框架的例子,数据库名称ssh2

2015-12-05

线性表基本操作

顺序表基本操作:创建、插入、删除、判空、查找.

2015-11-22

集体智慧编程中文版

本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。 本书是Web开发者、架构师、应用工程师等的绝佳选择。

2015-11-03

lingo教程大全.pdf

非常全的lingo教程,包括lingo软件的基本使用方法,外部文件接口,数学建模,非常适合作为lingo学习的参加手册.

2015-08-21

Windows程序设计 第五版 中文.pdf

目前的扫描版都不太清晰,特别是程序代码部分,根本看不清楚是些什么。 然而CHM版本的字体又太小了,不适合长时间学习。 所以本人特别推荐该 中文字PDF版本 。 该版本字体清晰,大小合适,并配有扫描版的所有图例。 长时间学习眼镜也不会有什么不适。 所有小节都设置了书签,非常方便。 文字版又便于复制粘贴。 这是我觉得目前最好用的版本。希望大家喜欢。 版本信息: 原著: Charles Petzold 翻译: 余孟学 CHM: 壹佰软件开发小组 PDF 整理: 涂燕翼

2015-08-16

ueditor实例

本实例在eclipse下配置了ueditor,解决图片上传路径配置问题,自定义拦截器解决了struts框架下图片上传失败问题。

2015-08-13

删帖申请

发表于 2018-03-28 最后回复 2020-08-13

esc_ai的留言板

发表于 2020-01-02 最后回复 2020-01-02

maven本地依赖加载配置出错

发表于 2016-10-28 最后回复 2019-05-13

java构造函数

发表于 2016-10-02 最后回复 2016-10-28

c3p0设置autoReconnection(mysql8小时连接问题)

发表于 2016-05-30 最后回复 2016-08-28

ssh框架整合错误 Could not open Hibernate Session for transaction

发表于 2016-05-21 最后回复 2016-06-23

BufferedReader读取两个文件死循环

发表于 2016-04-11 最后回复 2016-04-11

C#怎么判断数组对象类型?

发表于 2013-12-22 最后回复 2015-08-31

c#求助

发表于 2014-01-02 最后回复 2014-05-10

JAVA数据结构

发表于 2013-09-23 最后回复 2013-09-27

大家的打字速度是多少?做个统计

发表于 2013-08-17 最后回复 2013-08-24

赋值为什么没生效

发表于 2013-08-22 最后回复 2013-08-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除