- 博客(239)
- 资源 (32)
- 收藏
- 关注
原创 Lucene 6.0下使用IK分词器
Lucene 6.0使用IK分词器需要修改修改IKAnalyzer和IKTokenizer. 使用时先新建一个MyIKTokenizer类,一个MyIkAnalyzer类:MyIKTokenizer.javaimport java.io.IOException;import java.io.Reader;import org.apache.lucene.analysis.Tokenizer;i
2016-07-14 18:34:16 8289 5
原创 Elasticsearch java api(五) Bulk批量索引
这篇博客介绍一下Elasticsearch对多个文档进行索引的简便方法。Bulk api的支持可以实现一次请求执行批量的添加、删除、更新等操作.Bulk操作使用的是UDP协议,UDP无法确保与ElasticSearch服务器通信时不丢失数据.一、Bulk API使用bulk命令时,REST API以_bulk结尾,批量操作写在json文件中,官网给出的语法格式:action_and_meta_dat
2016-07-14 14:49:27 42638 18
原创 OS X 10.11.5 Scrapy安装指南
今天终于在安装成功了scrapy,之前试过很多次都安装失败,系统重装之后也没有成功,在mac系统上的安装不像windows那么容易,今天再次试了一遍成功了。 我的系统:OS X 10.11.5 python:2.7.10安装pippip是python 的包管理器,按照这里的安装指南https://pip.pypa.io/en/stable/installing/,先下载get-pip.py,之
2016-07-04 08:22:05 2521
原创 ElasticSearch同步MySql
ElasticSearch同步Mysql的插件选择了elasticsearch-jdbc,理由是活跃度高,持续更新,最新版本兼容elasticsearch-2.3.3.一、下载下载地址:https://github.com/jprante/elasticsearch-jdbc 下载后解压,里面有bin、lib2个目录. 二、mysql配置确保mysql能用,在mysql中新建一个test数据库m
2016-07-01 09:07:45 9690 11
原创 ElasticSearch Java Api(四) -删除索引
删除可以是删除整个索引库,也可以根据文档id删除索引库下的文档,还可以通过query查询条件删除所有符合条件的数据。一、删除整个索引库下面的例子会删除indexName索引:DeleteIndexResponse dResponse = client.admin().indices().prepareDelete(indexName) .execute
2016-06-29 14:11:20 32102 10
原创 ElasticSearch Java Api(三) -更新索引库
官网文档:https://www.elastic.co/guide/en/elasticsearch/client/java-api/current/java-docs-update.html一、UpdateRequest创建一个UpdateRequest,然后将其发送给client.UpdateRequest uRequest = new UpdateRequest();
2016-06-27 17:12:15 24485 2
原创 ElasticSearch Java Api(二) -检索索引库
上篇博客记录了如何用java调用api把数据写入索引,这次记录下如何搜索。一、准备数据 String data1 = JsonUtil.model2Json(new Blog(1, "git简介", "2016-06-19", "SVN与Git最主要的区别...")); String data2 = JsonUtil.model2Json(new Blog(2, "Java中泛
2016-06-23 21:40:32 19174 29
原创 [搜索]ElasticSearch Java Api(一) -创建索引
ElasticSearch JAVA API一、生成JSON创建索引的第一步是要把对象转换为JSON字符串.官网给出了四种创建JSON文档的方法:1.1手写方式生成String json = "{" + "\"user\":\"kimchy\"," + "\"postDate\":\"2013-01-30\",&qu
2016-06-19 23:25:52 81674 45
原创 ElasticSearch集群入门
一、下载与安装Elasticsearch 依赖 java,在安装 ES 之前首先要配好 java,这个默认我们的电 脑已经完成。 首先从 elasticsearch官网下载安装包,我们是 linux 系统,下载 tar 包比较方便。当前版本为2.3.3,下载地址:Elasticsearch 2.3.3下载 .下载完成之后解压tar文件:tar -zxvf elasticsearch-2.3.3.
2016-06-18 17:42:05 12547 13
原创 Solr环境搭建
记录一下Solr环境搭建,基于Solr 4.6.0.一、配置Tomcat下载Tomcat 7.0.新建一个solr文件夹,解压tomcat到solr目录下:solr tar -zxvf apache-tomcat-7.0.69.tar 启动tomcat: ./apache-tomcat-7.0.69/bin/catalina.sh start访问8080端口测试。二、配置solrsolr下载地址:h
2016-06-17 00:07:53 3091
原创 mac命令行启动tomcat
一、修改授权进入tomcat的bin目录,修改授权➜ bin pwd/Users/yp/Documents/workspace/apache-tomcat-7.0.68/bin➜ bin sudo chmod 755 *.shsudo为系统超级管理员权限.chmod 改变一个或多个文件的存取模式755代表用户对该文件拥有读、写、执行的权限,同组的其他人员拥有执行和读的权限,没有写的权限
2016-06-15 09:54:52 27286
原创 Grunt压缩、合并js/css文件
一、Grunt简介Grunt是一个基于命令的javascript工程命令行构建工具。 1. 官网:http://gruntjs.com/ 2. 中文网:http://www.gruntjs.net/ 在开发前端的时候,也就html、css、js三种,并不像其它编程语言需要管理很多模块、很多类,为什么要用构建工具?把代码放到服务器上的时候我们肯定是希望文件最小,加载的速度更快,我们自
2016-06-15 08:31:48 3569
原创 机器学习之朴素贝叶斯分类
贝叶斯概率在机器学习、自然语言处理中被广泛地应用,对于海量数据的文本分类问题(比如垃圾邮件的甄选和过滤),基于贝叶思的算法取得非常好的效果。一、概率基础概率:概率是某一事件或者预测行为的可信程度。取值在0-1之间。比如,抛一枚硬币,正面朝上的可能性和反面朝上的肯能性是相等的,都是0.5.条件概率:条件概率是指在某些前提条件的概率问题。比如,根据美国疾病控制中心美国每年大约有78.5万人罹患心脏病
2016-05-26 18:28:59 2188
原创 scrapy+Lucene搭建小型搜索引擎(现代信息检索大作业)
一、选题工程类搜索型: 定向采集 3-4 个新闻网站, 实现这些网站信息的抽取、索引和检索。网页数 目不少于 10 万条。能按相关度、时间、热度 (需要自己定义) 等属性进行排序, 能实现相似 新闻的自动聚类。 要求: 有相关搜索推荐、snippet 生成、结果预览 (鼠标移到相关结果, 能预览) 功能二、项目线上访问地址项目访问地址:http://120.27.46.201
2016-05-22 22:51:12 17815 17
原创 MapReduce编程实例
需求输入文件:文本文件 每行格式:<source> <destination> <time>3个部分由空格隔开其中source和destination为两个字符串,内部没有空格time为一个浮点数,代表时间(秒为单位)涵义:可以表示一次电话通话,或表示一次网站访问等输入可能有噪音: 如果一行不符合上述格式,应该被丢弃,程序需要正确执行 MapReduce计算:统计每对sourc
2016-05-04 16:42:00 2717
原创 adb shell查看sqlite数据库
android的数据持久化方案常用的有三种:文件存储SharedPreferences存储SQLite数据库存储 文件存储路径为:data/data/包名/files SharedPreferences储路径为:data/data/包名/shared_prefs SQLite数据库存储路径为:data/data/包名/databases 文本和SharedPreferences文件可以
2016-04-27 18:17:34 3419
原创 MapReduce编程模型
MapReduce/HadoopMapReduce是目前云计算中最广泛使用的计算模型,由Google于2004年提出,谷歌关于云计算有三篇著名的论文:《Bigtable_A Distributed Storage System for Structured Data》《MapReduce: Simplied Data Processing on Large Clusters》...
2016-04-26 13:29:12 5021
原创 Lucene 查询(Query)子类
QueryParser(单域查询)QueryParser子类对单个域查询时创建查询query,构造方法中需要传入Lucene版本号,检索域名和分词器。QueryParser parser = new QueryParser(Version.LUCENE_43, field, analyzer);// 查询字符串Query query = parser.parse("key");MultiField
2016-04-24 22:14:31 6238
原创 Lucene查询结果高亮
检索结果高亮对于用户的体验度和友好度非常重要,可以快速标记出用户检索对关键词。本例中的索引仍使用上一篇博客( Lucene查询索引)中创建的索引,代码高亮参考了Lucene4.x高亮 fast高亮 前端高亮。实现效果:核心代码package ucas.ir.lucene;import java.io.File;import java.io.IOException;import javax.prin
2016-04-23 13:04:43 5172 6
原创 Lucene查询索引
Lucene简介和怎样创建索引可以参考我前面的两篇博客Lucene全文检索基础和Lucene创建索引,索引创建以后可以使用luke(使用和Lucene版本相对应的Luke版本,比如Lucene版本是4.3,那么使用4.3 版本的Luke)查看。索引创建以新闻文档为例,每条新闻是一个document,新闻有news_id、news_title、news_source、news_url、news_abs
2016-04-22 11:07:41 4524 1
原创 [Android]listview图文混排
一、效果图:二、代码实现2.1ListViewActivitypackage cn.ac.ucas.yp.uiwidgettest;import android.support.v7.app.AppCompatActivity;import android.os.Bundle;import android.view.View;import android.widget.AdapterView;
2016-04-15 17:02:29 3525
原创 [Android]activity详解
现在回头看看毕设做的安卓程序,不论从深度还是广度上对安卓开发都不够深入,这次从头复习,恰好遇到了一本让人欲罢不能的好书。每一个安卓开发者都是从activity开始入门的,先整理一篇关于activity的知识点。一、创建activity的步骤。新建类继承自activity,新建layout xml文件,比如activity1.xml。重写onCreate方法: @Override
2016-04-15 15:49:01 873
原创 [j2ee]java中的xml操作
一、XML简介 xml是可扩展标记语言,主要用来标记数据、定义数据类型,非常适合万维网传输。 xml特点: xml是一种标记语言,很类似HTML xml的设计宗旨是传输数据,而不是显示数据 xml标签没有被预定义,需要自行定义标签 xml被设计为具有自我描述性 xml是W3C的推荐标准 xml和html对比:
2016-04-05 15:53:40 2209
原创 [大数据]本地文件拷贝到hdfs
创建文件夹: hadoop fs -mkdir /work 拷贝: hadoop fs -put /Users/yp/Documents/test.txt /work 打开http://localhost:50070/: Utilities->browse the file system,可以看到新建的文件夹: 点击文件夹,就可以看到新上传的文件:
2016-03-30 10:27:40 11061
原创 sublime安装package control及常用插件
sublime(官网:https://www.sublimetext.com/)是我比较喜欢的文本编辑器,使用非常顺手。这里记录下package control及常用插件的安装。一、安装package controlpackage control官网https://packagecontrol.io/installation,复制安装代码,在sublime菜单中找到view->show consol
2016-03-28 12:28:18 1776
原创 [J2EE]java操作json
一、JSON语法JSON:JavaScript 对象表示法(JavaScript Object Notation),JSON 是存储和交换文本信息的语法。类似 XML,但 比 XML 更小、更快,更易解析。 JSON 数据的书写格式是:名称/值对。 名称/值对包括字段名称(在双引号中),后面写一个冒号,然后是值:"firstName" : "John"JSON 数组在方括号中书写: 数组可包含
2016-03-23 08:06:48 4897
原创 [J2EE]java本地文件操作
File类简介;文件的创建、删除、重命名;文件夹的创建、删除、重命名;文件属性读取;文件属性设置;遍历文件夹;文件简单读写操作
2016-03-19 14:26:14 2433
原创 [J2EE]java集合
Collection类集合可以理解为一个动态数组,集合中的对象可以任意扩充.集合的特点:性能高;容易扩展。Collection的常用子类有:List、Set、Queue一、List接口list接口可以存放任意类型的数据,而且在List接口中内容可以重复。 List接口常用子类有:ArrayList、Vector。1.1ArrayList下面的Demo中展示了怎样创建ArrayList对象、
2016-03-19 12:54:38 1823 2
原创 [J2EE]MyBatis增删改查
MyBatis HelloWorld写了MyBatis基本配置,增删改查操作也类似。UserMapper.xml<?xml version="1.0" encoding="UTF-8" ?><!DOCTYPE mapper PUBLIC "-//mybatis.org//DTD Mapper 3.0//EN" "http://mybatis.org/dtd/mybatis-3-mapper
2016-03-19 11:43:51 1412
原创 MySQL技巧总结
SQL 函数为了数据的转换和处理方便,SQL提供了函数用来处理文本字符串、进行算术操作、处理日期和时间值、返回DBMS所使用的特殊信息。一、文本处理函数文本处理函数常用的大小写转换、清除空格、统计长度、返回SOUNDEX同音字符串等。 大写转换使用UPPER()函数:mysql> select UPPER(cust_name) FROM Customers; +----------------
2016-03-07 13:36:29 1438
原创 SELECT查询结果排序
1.排序数据使用SELECT 的order by子句可以对查询结果进行排序。 确保ORDER BY子句在SELECT语句的最后,否则会出现错误。示例:查询产品名称并以字母顺序排序:mysql> SELECT prod_name from Products ORDER BY prod_name; +---------------------+| prod_name |
2016-03-05 17:16:42 12165
原创 SELECT查询
SELECT用于从一个或多个表中检索信息,使用SELECT检索数据表需要明确:想选择什么,以及从什么地方选择1.检索单个列、多个列、所有列检索单个列的sql语法:SELECT 列名 FROM 表名示例:mysql> SELECT prod_name FROM Products;+---------------------+| prod_name |+------------
2016-03-05 16:27:18 1386
原创 sql创建数据库、设置主键外键、插入记录
在数据库中创建一个玩具经销商订单录入系统。这些表用来完成下面几项任务:管理供应商管理产品目录管理顾客列表录入顾客订单一、供应商Vendors表1.1表描述 列 说明 vend_id 唯一但供应商id vend_name 供应商名 vend_address 供应商地址 vend_city 供应商所在城市
2016-03-05 11:29:56 4981
原创 hadoop helloworld(wordcount)
一、安装hadoop发现在mac上安装hadoop有更快捷的方法,首先安装homebrew,homebrew是一个包管理工具,安装hadoop命令如下:brew install hadoop默认会安装在/usr/local/Cellar目录下。该目录默认为隐藏的,可以打开finder,依次:菜单栏”前往”->”前往文件夹”,输入/usr/local/Cellar。快捷键command+shift+G
2016-03-04 20:56:41 1185
原创 MySQL重要概念与基本命令
一、基本概念1.1数据库我们每天都在使用数据库,以登录微信为例,每个用户的用户名和密码都是保存在腾讯的服务器上的数据库里面的,登录的时候需要验证通过才能登录成功。那么怎么定义数据库,简单的说: 数据库就是保存有组织的数据的容器。 可以把数据库说成是存储数据的文件柜。1.2表一个数据库中有很多数据表,数据库就像一个大的文件柜,而表是一个一个的小格子。比如用户购物的数据信息是一个数据库,存储
2016-03-04 17:34:50 1096
原创 mac安装MongoDB
一、安装采用homebrew安装方式,首先:brew update然后:brew install mongodb安装提示代码:yaopans-MacBook-Pro:~ yaopan$ brew install mongodb==> Downloading https://homebrew.bintray.com/bottles/mongodb-3.2.3.yosemite.bottAlread
2016-03-01 16:11:02 3135
原创 mac下录制gif
发现一个好用的录制gif格式图片的软件,下载地址: http://www.cockos.com/licecap/,支持windows和mac,而且完全免费。安装后打开会出现一个录屏窗口,窗口大小可拖拉调整,点击record键开始录制,点击stop键停止录制. 录制的gif文件使用preview不能查看动态效果,可以选择打开方式,使用浏览器浏览器打开。
2016-03-01 12:28:55 1574
原创 [J2EE]servlet基础
一、servlet简介 Servlet(Server Applet),全称Java Servlet,是用Java编写的服务器端程序。其主要功能在于交互式地浏览和修改数据,生成动态Web内容。servlet本质上是一个特殊java类,需要遵循servlet规范,比如servlet没有main方法,servlet和http协议联系紧密。二、在eclipse中创建servlet新建一个dynamic
2016-03-01 12:01:32 2852 3
原创 LaTex学习笔记
一、latex环境配置MAC安装LaTex写了怎么配置LaTex软件环境,这篇博客写一下LaTex排版的基本语法。LaTex就是一个排版软件,并不难学,只要掌握其规则就可以排版出格式整洁的文档。通常排一篇文章需要一级标题、二级标题、三级标题。。。。、标题、作者、章节、段落、插入图片、数学公式、特殊符号、生成目录、插入表格等,把这些掌握基本上就够用了,因此只要掌握如何配置LaTex编译环境、掌握排版语
2016-02-29 15:44:11 2141
Elasticsearch 5.1.1 java api maven工程 源码下载
2017-04-18
druid-1.0.16.jar
2016-10-29
集体智慧编程中文版
2015-11-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人