自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

1.02^365=1377.41

Engineers are versatile minds who create links between science, technology, and society

  • 博客(239)
  • 资源 (32)
  • 收藏
  • 关注

原创 MapReduce编程(五) 单表关联

MapReduce编程实现单表关联,挖掘爷孙关系 一、问题描述 下面给出一个child-parent的表格,要求挖掘其中的父子辈关系,给出祖孙辈关系的表格。

2017-03-31 17:41:00 3375

原创 MapReduce编程(四) 求均值

MapReduce编程统计学生成绩的平均值,StringTokenizer和Split的用法对比

2017-03-31 13:28:34 2382

原创 MapReduce编程(三) 排序

MapReduce编程之排序问题一、问题描述文件中存储了商品id和商品价格的信息,文件中每行2列,第一列文本类型代表商品id,第二列为double类型代表商品价格。数据格式如下

2017-03-31 11:10:34 5530 1

原创 MapReduce编程(二) 文件合并和去重

MapReduce编程实现文件合并和去重:对输入的多个文件进行合并,并剔除其中重复的内容,去重后的内容输出到一个文件中。

2017-03-30 23:59:27 11063

原创 MapReduce编程(一) Intellij Idea配置MapReduce编程环境

介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。

2017-03-30 20:37:22 28483 7

原创 Intellij Idea编译Elasticsearch源码

如果想阅读Elasticsearch源码,定制功能,不可避免的要编译Elasticsearch。本文图文并茂,介绍如何使用Intellij Idea编译Elasticsearch源码包。

2017-03-27 20:06:28 9305 1

原创 TF-IDF词项权重计算

一、TF-IDF词项频率: df:term frequency。 term在文档中出现的频率.tf越大,词元越重要. 文档频率: tf:document frequecy。有多少文档包含此term,df越大词元越不重要.词元权重计算公式: tf-idf=tf(t,d)*log(N/df(t))W(t,d):the weight of the term in document d tf

2017-03-23 21:46:51 5297 3

原创 ELK日志处理之使用Grok解析日志

介绍如何在logstash中使用Grok和正则表达式解析任意格式日志,以及Grok Debugger的使用。

2017-03-17 13:26:24 25668

原创 图解Elasticsearch中的_source、_all、store和index属性

Elasticsearch中有几个关键属性容易混淆,很多人搞不清楚_source字段里存储的是什么?store属性的true或false和_source字段有什么关系?store属性设置为true和_all有什么关系?index属性又起到什么作用?什么时候设置store属性为true?什么时候应该开启_all字段?本文通过图解和代码测试进行解析。

2017-03-15 20:29:26 49389 17

原创 ELK日志处理之使用logstash收集log4J日志

介绍logstash处理log4j日志,包括log4j的简介、工程的搭建、log4j配置、logstash配置,实现日志从产生到logstash再到Elasticsearch的整个流程。

2017-03-11 00:29:52 32733 19

原创 Elasticsearch整合Mysql新闻搜索

Elasticsearch整合Mysql,实现数据导入、全文搜索、搜索高亮、结果分页

2017-02-27 17:19:14 4590 21

原创 Elasticsearch Java API(十一)--聚合(aggregations)

Elasticsearch分析聚合介绍了分析聚合的REST命令,这篇博客介绍一下如何使用Java API。一、准备数据测试数据请参考我的上一篇博客:Elasticsearch分析聚合。二、需求查询title中包含关键字”程序”的文档,统计查询按编程语言分组,统计每组的文档数量。三、REST命令行REST命令行如下,有三部分,query查询所有title中包含关键词程序的文档,size指定返回结果中文

2017-02-21 12:15:29 14995 2

原创 Lucene扩展停用词字典与自定义词库

介绍如何在Lucene 6.0中扩展停用词,如何通过自定义字典把"厉害了我的哥"分成一个词

2017-02-04 18:23:51 6707 2

原创 Lucene 6.0 提取新闻关键词Top-N

一、需求给出一篇新闻文档,统计出现频率最高的有哪些词语。二、思路关于文本关键词提取的算法有很多,开源工具也不止一种。这里只介绍如何从Lucene索引中提取词项频率的TopN。索引过程的本质是一个词条化的生存倒排索引的过程,词条化会从文本中去除标点符号、停用词等,最后生成词项。在代码中实现的思路是使用IndexReader的getTermVector获取文档的某一个字段的Terms,

2017-01-11 19:47:00 7733 2

原创 [大数据]Hadoop 2.7.3 和Hbase 1.2.4安装教程

一机器环境二配置SSH免密码登录三安装Hadoop 2731下载Hadoop2运行Hadoop单机模式3 Hadoop伪分布式模式31修改hadoop-envsh32修改core-sitexml33修改mapred-sitexmltemplate34修改hdfs-sitexml4启动hadoop41格式化hdfs42启动Hadoop四安装Hbase 1241 Hbase下

2017-01-06 14:37:11 16387 4

原创 从0开始搭建SVN服务器

机器环境:Win7 64位 Eclipse:Neon.1a Release (4.6.1) 在Win7上安装SVN server作为搭建代码服务器,在另外一台机器上提交代码进行测试。一、SVN服务器配置1.1下载与安装到VISUALSVN SERVER官网下载SVN服务器安装包,下载地址:https://www.visualsvn.com/server/download/下载后一路下一步,之后启

2017-01-01 17:00:52 5605 11

原创 Elasticsearch 5.1.1搜索高亮及Java API实现

5.1.1的搜索高亮和2.X有所变化,但是变化不大。下面分四步来介绍:创建索引(设置mapping/IK分词)、索引文档、REST API的搜索高亮、JAVA API的搜索高亮。 注:从这篇博客开始,采用简写的代码风格,也就是Sence插件或者kibana的dev tools中采用的风格。(温馨提示:安装kibana 5.1.1,在dev tools中直接可以使用简单格式命令。)一、创建索引文档结

2016-12-28 17:39:01 21629 16

原创 Elasticsearch 5 Ik+pinyin分词配置详解

一、拼音分词的应用拼音分词在日常生活中其实很常见,也许你每天都在用。打开淘宝看一看吧,输入拼音”zhonghua”,下面会有包含”zhonghua”对应的中文”中华”的商品的提示:拼音分词是根据输入的拼音提示对应的中文,通过拼音分词提升搜索体验、加快搜索速度。下面介绍如何在Elasticsearch 5.1.1中配置和实现pinyin+iK分词。二、IK分词器下载与安装关于IK分词器的介绍不再多少,

2016-12-28 13:57:15 31261 14

原创 Elasticsearch 5.1.1 head插件安装指南

Elasticsearch 5.1.1 head插件安装指南一、下载安装包下载Elasticsearch 5.1.1下载地址:https://www.elastic.co/downloads/elasticsearchzip和tar格式是各种系统都通用的,解压之后启动Elasticsearch即可。下载elasticsearch-head下载地址:https://github.com/mobz/el

2016-12-27 16:05:33 32830 18

原创 Elasticsearch 5.X下JAVA API使用指南

Elasticsearch 5.0下Java API使用指南一.2.X到5.XElasticsearch 2.x使用java api把elasticsearch安装包下的lib文件夹下的jar文件全部加入到工程类路径即可,换到5.x就不适用了.创建Clien的代码:Settings settings = Settings.builder().put("cluster.name", "elastics

2016-12-12 11:45:06 47862 50

原创 Elasticsearch分析聚合

Elasticsearch不仅仅适合做全文检索,分析聚合功能也很好用。下面通过实例来学习。一、准备数据{"index":{ "_index": "books", "_type": "IT", "_id": "1" }}{"id":"1","title":"Java编程思想","language":"java","author":"Bruce Eckel","price":70.20,"year":

2016-12-06 11:15:46 12462

原创 远程文件拷贝命令scp的用法

scp命令用途scp是secure copy的缩写,是Linux系统下的远程文件拷贝命令。核心通途有2个:拷贝本机文件到远程服务器拷贝远程服务器上的文件到本地它使用ssh安全协议传输数据,具有和ssh一样的验证机制,从而安全的远程拷贝文件。scp命令格式scp [-1246BCpqrv] [-c cipher] [-F ssh_config] [-i identity_file] [-l li

2016-11-25 14:20:34 2001

原创 导入Logstash日志到Elasticsearch

导入logstash日志到Elasticsearch一、logstash是什么?Logstash是一款轻量级的日志搜集处理框架,可以方便的把分散的、多样化的日志搜集起来,并进行自定义的处理,然后传输到指定的位置,比如某个服务器或者文件。当然它可以单独出现,作为日志收集软件,你可以收集日志到多种存储系统或临时中转系统,如MySQL,redis,kakfa,HDFS, lucene,s

2016-11-22 10:21:24 15886

原创 大数据基础之常用Linux命令

大数据实验环境一般为Linux,熟悉Linux操作非常有必要,总结常用Linux命令如下。1.cd命令进入文件夹:cd dirname进入多级文件夹:cd /usr/local/Cellar返回上层目录:cd ../返回上层的上层:cd ../../回到主文件夹cd2.ls命令ls命令用于列出当前文件和目录,加上参数之后可以做更多的事情。 不带参数运行ls会列出文件和目录ls使用-l参

2016-11-20 18:03:09 6008

原创 解决linux下root运行Elasticsearch异常

在CentOS 6.5 上运行Elasticsearch 2.3,异常如下:Exception in thread "main" java.lang.RuntimeException: don't run elasticsearch as root. at org.elasticsearch.bootstrap.Bootstrap.initializeNatives(Bootstr

2016-11-20 02:39:32 20491 4

原创 Elasticsearch java client 获取mapping

通过java客户端获取mapping:package elasticsearch.in.action.client;import java.net.InetAddress;import java.net.UnknownHostException;import org.elasticsearch.client.transport.TransportClient;import org.elastic

2016-11-15 22:50:27 8058 1

原创 Lucene 6.0中BooleanQuery

Lucene 6.0中BooleanQuery创建和之前的不太一样,4.3版本的创建BooleanQuery:BooleanQuery bQuery=new BooleanQuery(); bQuery.add(new TermQuery(new Term("title", "lucene")), Occur.MUST); bQuery.add(new

2016-11-08 00:41:35 4611

原创 lucene索引的删除和更新

Lucene索引的删除和更新删除和更新和新增一样,也是通过IndexWriter 对象来操作的,IndexWrite对象的deleteDocuments ()方法用于实现索引的删除,updateDocument()方法用于实现索引的更新。删除Lucene索引删除索引的代码如下,该示例实现了根据Term来删除单个或多个Document,删除title中包含关键词“美国”的文档:import java.

2016-11-07 23:09:21 10526 1

原创 Elasticsearch Java API(十)--Multi Get API

使用multi get API可以通过索引名、类型名、文档id一次得到一个文档集合,文档可以来自同一个索引库,也可以来自不同索引库。示例如下:MultiGetResponse multiGetItemResponses = client.prepareMultiGet() .add("twitter", "tweet", "1") //注释1

2016-10-16 16:03:13 3725 3

原创 [搜索]Lucene仿百度文库文件检索系统

一、准备文件2016中国人工智能大会 顶尖专家齐聚.pptx2016中国人工智能大会 大咖云集探讨人工智能.doc2016中国人工智能大会在京召开.docxJavaScript闭包详解.docx如何使用JSON.doc中国人工智能大会CCAI 2016圆满落幕.pdf中科院副院长:人工智能 找风口不如找关口.txt二、搜索框三、搜索结果页声明: 本博客拒绝转载!

2016-10-01 10:24:21 3842 10

原创 Elasticsearch索引管理

1.判断索引是否存在IndicesExistsResponse indexResponse = ia.client.admin().indices().prepareExists("blog").execute().actionGet();System.out.println(indexResponse.isExists());也可以同时判断多个索引是否存在:IndicesExistsRespon

2016-08-24 09:18:23 4428 2

原创 搭建Elasticsearch 5.4分布式集群

一、集群角色多机集群中的节点可以分为master nodes和data nodes,在配置文件中使用Zen发现(Zen discovery)机制来管理不同节点。Zen发现是ES自带的默认发现机制,使用多播发现其它节点。只要启动一个新的ES节点并设置和集群相同的名称这个节点就会被加入到集群中。Elasticsearch集群中有的节点一般有三种角色:master node、data node和clien

2016-08-14 07:18:18 53714 13

原创 Elasticsearch shield权限管理详解

ElasticSearch本身没有权限管理模块,只要获取服务器的地址和端口,任何人都可以随意读写ElasticSearch的API并获取数据,这样非常不安全。如果获取了ES的访问IP和端口,一条命令就可以删除整个索引库。好在Elastic公司开发了安全插件shield来解决权限管理问题. https://www.elastic.co/products/shield 一、shield安装...

2016-08-13 21:06:16 29763 18

原创 Elasticsearch Java API(九)--删除文档的field以及field的属性

一、需求项目中需要实现删除文档的一个field以及删除指定field的一个属性. 以文档test/document/1为例:{ "_index": "test", "_type": "document", "_id": "1", "_score": 1, "_source": { "class": "com.test.data",

2016-08-04 16:00:09 10288 5

原创 Elasticsearch Java API(八)--搜索有相同父id的子文档

需求:搜索具有相同父id的所有子文档.数据:   mapping:     { "mappings": { "branch": {}, "employee": { "_parent": { "type": "branch" } } } }

2016-08-04 13:40:50 7167 2

原创 Elasticsearch Java API(七)--多级嵌套搜索

要在java中实现一个有三级父子关系的嵌套搜索,相关资料很少,发在stackoverflow上以后一个Switzerland的大神很快回复了我,google+stackoverflow很好使。对应的命令行query:{ "query": { "has_child": { "type": "instance", "query": {

2016-07-29 04:44:53 15615 11

原创 Elasticsearch Java Api(六)--DeleteByQuery

参考stackoverflow上的帖子,总结DeleteByQuery的java api

2016-07-26 19:06:19 13220 4

原创 Elasticsearch索引的父子关系(index parent-child)

Elasticsearch允许给文档建立父子关系,这篇博客介绍文档的父子关系是如何映射的、如何索引父子文档、如何通过子文档查询父文档 、如何通过父文档查询子文档.

2016-07-26 14:17:19 25523 7

原创 Elasticsearch索引mapping的写入、查看与修改

mapping的写入与查看首先创建一个索引:curl -XPOST "http://127.0.0.1:9200/productindex"{"acknowledged":true} 现在只创建了一个索引,并没有设置mapping,查看一下索引mapping的内容:curl -XGET "http://127.0.0.1:9200/productindex/_mapping?pretty" {

2016-07-24 09:32:55 138731 3

原创 Elasticsearch内存分配设置

编辑:elasticsearch-2.3.3/bin/ elasticsearch 加上:export ES_HEAP_SIZE=10g或者启动的时候设置参数,确保Xmx和Xms大小相等:./bin/elasticsearch -Xmx10g -Xms10g官网说明: https://www.elastic.co/guide/en/elasticsearch/guide/current/heap

2016-07-23 07:53:28 21368 3

标点符号用法标准.pdf

标点符号用法标准

2017-06-30

Elasticsearch 5.1.1 java api maven工程 源码下载

Elasticsearch 5.1.1 java api maven工程,完整jar包在es5/target/dependency目录下

2017-04-18

Jackcard相似度的java代码

Jackcard相似度的java代码

2017-04-12

向量空间模型的Java代码

向量空间模型的Java代码

2017-04-12

MapReduce maven工程WordCount例子

介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境。

2017-03-30

MapReduce WordCount例子

介绍如何在Intellij Idea中通过创建maven工程配置MapReduce的编程环境,WordCount代码。

2017-03-30

testng-6.8.8.jar

testng框架的jar文件,基于他可以写测试类,比juint强大

2016-10-29

druid-1.0.16.jar

Druid是什么? Druid首先是一个数据库连接池。Druid是目前最好的数据库连接池,在功能、性能、扩展性方面,都超过其他数据库连接池,包括DBCP、C3P0、BoneCP、Proxool、JBoss DataSource。 Druid已经在阿里巴巴部署了超过600个应用,经过一年多生产环境大规模部署的严苛考验。 同时Druid不仅仅是一个数据库连接池,它包括四个部分: Druid是一个JDBC组件,它包括三个部分: 基于Filter-Chain模式的插件体系。 DruidDataSource 高效可管理的数据库连接池。 SQLParser

2016-10-29

逻辑思维训练500题以及答案

逻辑思维训练500题以及答案 word版本

2016-10-18

gson-2.2.4.jar

GSONjar包,2.2.4版本

2016-10-16

Redis实战 中文.pdf

Redis实战 中文版

2016-09-08

REDIS 入门指南

REDIS 入门指南.pdf

2016-09-08

宗成庆 自然语言处理 期末试题.pdf

中科院宗成庆 自然语言处理 期末试题

2016-07-11

grunt压缩、合并js/css

grunt压缩、合并js/css

2016-06-15

信息检索导论_王斌译_课后习题答案

现代信息检索导论_王斌译_课后习题答案

2016-05-03

ssh读取新闻

使用eclipse搭建ssh新闻发布系统,基于struts2.3、 hibernate4、spring4.3,读取新闻数据到前台

2016-01-23

ssh新闻发布系统环境搭建

使用eclipse搭建ssh新闻发布系统,基于struts2.3、 hibernate4、spring4.3

2016-01-21

recommend.py

基于系统过滤的推荐算法,实现user-user、item-item推荐,计算欧几里德距离、皮尔逊相关度。

2015-12-31

SSH框架代码

struts 2.3.4、spring 4.2.3、hibernate4.3.11搭建ssh开发框架

2015-12-15

ssh框架整合实例

整合sping、struts2、hibernate框架的例子,数据库名称ssh2

2015-12-05

线性表基本操作

顺序表基本操作:创建、插入、删除、判空、查找.

2015-11-22

集体智慧编程中文版

本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。 本书是Web开发者、架构师、应用工程师等的绝佳选择。

2015-11-03

lingo教程大全.pdf

非常全的lingo教程,包括lingo软件的基本使用方法,外部文件接口,数学建模,非常适合作为lingo学习的参加手册.

2015-08-21

ueditor实例

本实例在eclipse下配置了ueditor,解决图片上传路径配置问题,自定义拦截器解决了struts框架下图片上传失败问题。

2015-08-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除