- 博客(161)
- 资源 (6)
- 收藏
- 关注
原创 Solr分面搜索(Faceting)
分面搜索(faceting)是基于索引词,将搜索结果组织到不同的分类(categories)中。表示为索引词(terms),以及一个数值代表各个词匹配的文档数。*分面的字段属性:indexed或docValues之一必须为true, 但不是都必须为true. docValues在很多情况下更高效。(1) 通用参数- facet"true" 启用faceting计数。
2016-05-27 18:26:48 5323 2
原创 Solr搜索介绍(Searching)
1. 概览在Solr中运行一个搜索时,搜索查询(search query)由一个request handler处理。一个request handler是一个Solr插件,定义了Solr处理请求时使用的逻辑。Solr支持各种请求处理器。Search应用默认选择一个特定的request handler. 用户可以配置选择一个不同的request handler来覆盖默认的选择。
2016-05-27 18:18:48 4827
原创 Solr索引和基本数据操作
1. 介绍Solr索引可以接收不同的数据来源,包括XML文件,逗号分隔值(CSV)文件,从数据库提取的数据,常见的文件格式如MS Word或PDF.有三种常用的方法加载数据到Solr索引:* 使用Apache Tika的Solr Cell框架,处理二进制或结构化文件如Office, Word, PDF 和其他专有格式。* 通过HTTP请求上传XML文件* 使用SolrJ写一
2016-05-20 13:32:51 4555
原创 Solr理解Analyzers, Tokenizers, and Filters.
1. 关于关于Solr如何切分文本数据。需要理解三个主要概念:analyzers, tokenizers, and filters.Field analyzers:在索引(index)单个文档和查询(query)时都被使用。它检查字段的文本并生成一个token stream. Analyzers可以是单个class或是由tokenizer和filter序列组成。Tokenizers
2016-05-19 14:36:47 3773
原创 Solr5 Schema API
1. Schema APISchema API提供了对每个collection的schema的读写访问。对所有schema元素的读访问都支持。字段(Fields), dynamic fields, field types 和 copyField 可以被添加、删除或替代。未来Solr可能支持对更多schema元素的写操作。注意:一旦schema被修改,重新索引所有数据。
2016-05-17 18:05:23 1410
原创 文档(Documents), 字段(Fields), 及模式设计(Schema Design)
1. 文档(Documents), 字段(Fields), 及模式设计(Schema Design)1.1 概览1.1.1 Solr的Schema文件Solr在schema文件中存储它需要知道的字段类型和字段的详细信息。此文件的名称和位置,取决于你如何配置solr.- schema.xml 是schema文件的传统名称。- managed-schema 作为schema文件名,
2016-05-17 18:02:28 1417
原创 用于solr5的ansj分词插件扩展
源码:https://github.com/NLPchina/ansj_segjar包:http://maven.nlpcn.org/org/ansj/http://maven.nlpcn.org/org/nlpcn/nlp-langhttp://maven.nlpcn.org/org/ansj/tree_split/生成solr5的ansj插件:下载ansj_
2016-05-17 17:56:11 1858
原创 按字符串反向字母序排列字符串数组
public static List sortByStringSuffixal(List list) { Collections.sort(list, new Comparator() { @Override public int compare(String o1, String o2) {
2016-05-11 11:36:54 742
原创 Java按Value排序Map
public static ArrayList> getSortedHashMapByValue(Map map) { ArrayList> entries = new ArrayList>(map.entrySet()); Collections.sort(entries, new Comparator>() {
2016-05-11 11:16:03 288
原创 Java文件编码及读写
try { BufferedReader bufReader = new BufferedReader(new InputStreamReader(new FileInputStream(inFile), "UTF-8")); BufferedWriter outWriter = new BufferedWriter(new OutputStre
2016-05-09 14:46:01 510
原创 solr5安装实践
自带安装脚本./install_solr_service.sh -i /opt # 安装路径(需已存在)-d /var/solr # solr数据文件目录-u solr # 所属用户-s solr # 服务名-p 8983 # 运行端口安装命令$ tar xzf solr-5.5.0.tgz so
2016-04-29 11:19:33 1017
原创 将Solr5部署到生产环境
== 将Solr部署到生产环境-- Solr服务安装脚本Solr包含一个安装脚本(bin/install_solr_service.sh)能帮助你在linux下安装Solr服务。在运行安装脚本前,你需要决定设置一些参数。尤其是在哪安装Solr和Solr文件及进程属于哪个系统用户。- 安排你的目录结构我们建议将Solr产生的文件,如日志和索引文件,与Solr发布包含的文件
2016-04-29 11:14:55 897
原创 Solr-5.5 QuickStart
solr-5.5centos-6.5= 安装solr:[ solr-5.5.0]# tar zxf solr-5.5.0.tgz= 运行solr:[ solr-5.5.0]# bin/solr start #后台运行[ solr-5.5.0]# bin/solr stop= Solr脚本选项:帮助$ bin/solr -help
2016-04-26 17:08:32 533
原创 Django表单API
- 创建表单(Form)# 创建未绑定(unbound)表单>>> f = ContactForm()>>> f.is_boundFalse# 创建绑定(bound)表单将字典数据,作为Form构造函数的第一个参数。>>> data = {'subject': 'hello',... 'message': 'Hi there',..
2016-03-29 16:11:19 620
原创 python的time和datetime模块 之 时间形式互转
>>> import time# float时间戳形式>>> time.time()1459152027.0778329# struct_time形式>>> time.localtime()time.struct_time(tm_year=2016, tm_mon=3, tm_mday=28, tm_hour=16, tm_min=0, tm_sec=32, tm_
2016-03-28 16:56:06 1735
原创 Django从models创建表单(forms)
https://docs.djangoproject.com/en/1.8/topics/forms/modelforms/= ModelForm对于映射到model的表单,避免重复定义属性,Django提供了一个帮助函数让你从一个Model直接创建Form.from django.forms import ModelFormfrom myapp.models impo
2016-03-23 15:31:58 814
原创 Django表单简介
== 表单(Forms) ==表单API:https://docs.djangoproject.com/en/1.8/ref/forms/api/表单属性: https://docs.djangoproject.com/en/1.8/ref/forms/fields/表单校验: https://docs.djangoproject.com/en/1.8/ref/forms/vali
2016-03-23 14:32:02 504
原创 Django模板简介
Django template language (DTL) 是Django自己的模板系统。- 支持模板系统#配置TEMPLATES = [ { 'BACKEND': 'django.template.backends.django.DjangoTemplates', 'DIRS': [], # 指定模板文件搜索路径及顺序
2016-03-18 15:50:56 444
原创 Django基于类的编辑视图和Mixins
== 内建的基于类的通用编辑视图 (Forms)表单(处理)通常包含3条路径:* 初始的GET (空或预填充的表单)* 非法数据的POST (通常重新显示表单并提示错误)* 合法数据的POST (处理数据并通常重定向)你自己实现这些常常需要重复很多模式化的代码。帮助避免这些,Django提供了一系列通用的基于类的视图用于表单处理。- 基本表单# form
2016-03-18 11:32:26 2293
原创 Django基于类的视图(views)
一个视图(view)是一个可调用对象(callable), 不仅仅局限于一个函数。https://docs.djangoproject.com/en/1.8/ref/class-based-views/== 介绍基于类的视图(class-based views)相比较于基于函数的视图(function-based views)的不同和优点:* 处理不同HTTP方法(GET,
2016-03-17 17:29:48 7144
原创 Django View基础
== 编写视图(view)view 或 view function:一个python函数,处理一个Web request并返回一个Web response.- 一个简单的viewfrom django.http import HttpResponseimport datetimedef current_datetime(request): now = dateti
2016-03-16 14:49:57 793
原创 Django View Request和Response
== HttpRequest 对象- HttpRequest 属性所有属性应被视为只读的,除非特别声明。HttpRequest.scheme (http or https)HttpRequest.body => HttpRequest.read()HttpRequest.path /app/path/to/HttpRequest
2016-03-16 13:46:46 864
原创 Django URL 分发
- url => views函数调用(位置参数)urlpatterns = [ url(r'^articles/2003/$', views.special_case_2003), url(r'^articles/([0-9]{4})/$', views.year_archive), url(r'^articles/([0-9]{4})/([0-9]{2}
2016-03-15 17:36:51 641
原创 MySQL服务器间迁移数据目录问题
1. 拷贝数据目录 /var/lib/mysql到新服务器1)直接scp拷贝数据目录,用户权限会改变,使用chown修改2)压缩后拷贝,在新服务器会保留原用户权限2. 在新服务器使用拷贝的数据目录启动mysql错误日志:--------160315 14:46:39 mysqld_safe Starting mysqld daemon with databases fr
2016-03-15 15:23:39 789
翻译 Django Model 查询
== Model 查询 ==class Blog(models.Model): # 博客 name = models.CharField(max_length=100) tagline = models.TextField()class Author(models.Model): # 作者 name = models.CharField(m
2016-03-14 18:12:58 766
原创 将jar包发布(deploy)到maven仓库
将jar包发布(deploy)到maven仓库1. 在Maven的settings.xml中配置仓库在….. 中增加 {仓库名} {用户名}{密码}2. maven上传命令mvn deploy:deploy-file -DgroupId=com.xx.xx -DartifactId=xx -Dversion=1.0.0 -Dpackaging=jar -
2016-01-13 11:18:42 10438
原创 catalina_out_rolling
#!/bin/bash# 50 23 * * * /path/to/this/shtoday=`date "+%Y-%m-%d"`logf=catalina.outfunction rolling_catalina(){ if [ ! -d $1 ]; then echo "Tomcat logs not existed: $1" return
2016-01-12 16:25:12 432
原创 MySQL查询
MySQL 多字段in查询:select * from table where (col1,col2,col3) in ((v1,v2,v3),(v11,v22,v33));
2016-01-05 14:11:50 529
原创 在Apache上安装mod_wsgi
1. Apache模块安装mod_wsgihttp://modwsgi.readthedocs.org/en/develop/release-notes/version-3.5.htmlVersion 3.5 of mod_wsgi can be obtained from:https://github.com/GrahamDumpleton/mod_wsgi/archiv
2015-12-31 10:36:37 5721
翻译 mod_wsgi
http://modwsgi.readthedocs.org/en/develop/1. mod_wsgimod_wsgi实现了一个简单易用的Apache模块,可负载任何支持Python的WSGI规范的Web应用程序。基于不同的需求mod_wsgi有两种不同的安装方式。第一种方式是作为传统的Apache模块安装到已有的Apache中。按此方式,你需要手动配置Apache以加
2015-12-31 10:34:11 1425
原创 Linux下安装Apache httpd server
http://httpd.apache.org/docs/2.4/install.html1. 安装依赖库 ARP, ARP-Util, PCRE下载地址http://apr.apache.org/download.cgihttp://www.pcre.org/安装ARP# tar zxf apr-1.5.2.tar.gz# cd apr-1.5.2#
2015-12-29 17:47:58 468
翻译 如何使用WSGI部署Django(1.8)
https://docs.djangoproject.com/en/1.8/howto/deployment/wsgi/1. 如何使用WSGI部署Django(1.8)Django的首选部署平台是WSGI, web服务和应用的Python标准。-- How to use Django with Apache and mod_wsgi-- Authenticating aga
2015-12-29 16:19:53 6311
原创 MySQL用户权限管理
- 查看权限select user,host from mysql.user;select db,user,host from mysql.db;show grants for {user}@{IP};- 向指定用户(及IP)授权:grant all privileges on {db}.* to {user}@{IP} identified by '{password
2015-12-22 14:02:55 479
原创 Solr与开源中文分词(ansj)整合
1. ansj分词源码及jar包下载地址源码:https://github.com/NLPchina/ansj_segjar包:http://maven.nlpcn.org/org/ansj/http://maven.nlpcn.org/org/nlpcn/nlp-lang2. 在solr使用ansj分词(1) ansj的solr扩展及编译ansj支
2015-12-17 10:56:18 1630
原创 linux 用户、用户组和文件权限
1. 用户 (user)1.1 用户类型管理员 root:具有所有权限的用户,UID的值为0.系统用户:保障系统运行的用户,一般不提供密码登录系统,其UID为1-499之间。普通用户:普通创建的用户,其使用系统的权限受限,UID为500~60000.1.2 用户操作与用户相关的配置文件主要有/etc/group和/etc/gshadow创建用户:userad
2015-11-12 13:02:11 551
原创 [Django1.8] Authentication
- Authentication安装django-admin startproject生成的settings.py, 默认包含必要的Auth配置:INSTALLED_APPS:1. 'django.contrib.auth' 包含认证框架的核心,及默认模块。2. 'django.contrib.contenttypes' 是Django的content type syste
2015-10-20 16:27:18 774
原创 [Django1.8]sessions
- 如何使用sessions:Django提供完全的匿名session支持,session框架使你可以基于站点访问者存储和取得任意数据。它在服务端存储数据,提取发送和接收的cookies. Cookie包含一个session ID.MIDDLEWARE_CLASSES:'django.contrib.sessions.middleware.SessionMiddleware
2015-10-20 16:19:11 479
原创 POJ 1260 Pearls (DP)
以最低的价格购买珍珠:某一级别的珍珠价钱:(ai+10)*pi,ai和pi分别是这一级别珍珠的数量和单价;珍珠随着级别的升高,价格增加;某一级别的珍珠可以放在更高级别中卖出(省去附加的*10的钱),但不能与更低级别的珍珠一起卖。a1 p1a2 p2a3 p3a4 p4...ai pi问题关键:对于ai,...,ak,...aj-1,aj级别递
2015-09-22 22:40:27 392
原创 Java目录处理及遍历解压
import java.io.File;import java.io.FileFilter;import java.io.IOException;public class DirProcessor { private FileFilter dirFileFilter = new FileFilter() { public boolean accept(File f) {
2015-09-02 10:13:45 1006
Item based collaborative filtering recommendation
2018-07-21
UNIX_Network_Programming_Vol1_3rd.chm
2014-08-19
Learing_Website_Development_with_Django_1.6版修改笔记
2014-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人