自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(91)
  • 收藏
  • 关注

原创 squid 高匿配置 用户名密码配置

1.  安装squidyum install  squid2.  修改配置文件// 在 http_access deny all 上面加上如下权限配置,注意,一定要在这句上面//用户名密码配置auth_param basic program /usr/lib64/squid/basic_ncsa_auth /etc/squid/passwdacl auth_user proxy_a

2016-07-05 11:32:19 7800

原创 .gitignore java 版本

# Operating System Files*.DS_StoreThumbs.db*.sw?.#**#*~*.sublime-*# Build Artifacts.gradle/build/target/bin/dependency-reduced-pom.xml# Eclipse Project Files.cl

2016-07-05 11:32:05 3815

原创 https小结

https = http 加上 SSL 传输层https 主要作用是传输的内容都是加密的,防止被篡改 , 同时很好的防止了被劫持。浏览器内置的证书颁发机构就那么多。都是大的权威的机构。目前免费的有StartSSL.

2016-07-05 11:31:54 314

原创 sed替换^M为回车

sed -e 's/^M/\n/g' myfile.txt注意   ^M 使用“CTRL-V CTRL-M”生成,而不是直接键入“^M”。

2016-07-05 11:31:42 5536

原创 simhash

转子:http://blog.sina.com.cn/s/blog_81e6c30b0101cpvu.html

2016-07-05 11:31:16 318

原创 php BOM 问题

最近合作开发项目  总发现php输出的不对  代码一模一样也不行  后来机智的我感觉是编码有问题  发现都是utf-8 的   最后把文件内容都删除之后发现还有3个字符大小  用vim -b 命令打开之后发现是 eff>  感觉问题就出在这里了。 后来才发现 这是utf-8里面的 BOM  , 恶心的是BOM 会随着echo 输出  导致不对。 附上几个命令 查找和去除BOM在

2016-07-05 11:30:57 474

原创 添加用户跟组

1、添加用户,首先用adduser命令添加一个普通用户,命令如下:#adduser tommy//添加一个名为tommy的用户#passwd tommy   //修改密码Changing password for user tommy.New UNIX password:     //在这里输入新密码Retype new UNIX password:  //再次输入新密码passwd: a

2016-07-05 11:30:41 511

原创 sql调优

实现准备:关闭mysql 查询缓存set session query_cache_type=off;

2016-07-05 11:30:32 213

原创 xargs 用法

原博客地址: http://blog.csdn.net/taiyang1987912/article/details/42774517在使用 find命令的-exec选项处理匹配到的文件时, find命令将所有匹配到的文件一起传递给exec执行。但有些系统对能够传递给exec的命令长度有限制(#getconf ARG_MAX可以获得操作系统允许的最大参数长度为2621440),这样在find命

2016-07-05 11:30:24 398

原创 shell 编程

arr=(${line//,/ })以 , 分割   相当于 split 函数,这是在没有空格的情况下. echo "$user"|cut -d ":" -f$i  这个更有通用性,一定要加 "", 在while read line 的时候 不加"" 会有问题。

2016-07-05 11:30:16 320

原创 lucene 4.6 之indexing 之 IndexChain,索引数据结构

/* This is the current indexing chain: DocConsumer / DocConsumerPerThread --> code: DocFieldProcessor --> DocFieldConsumer / DocFieldConsumerPerField -

2016-07-05 11:30:07 328

原创 java class reload 动态加载

在运行时动态加载jar包容易,但是如果想动态替换运行时的类,需要定义自己的classloader , 用自己的classloader 来load这个类。具体代码如下。public class UClassloader extends URLClassLoader{ public UClassloader(URL[] urls) { super(urls); }

2016-07-05 11:29:56 2746

原创 lucene 存储,访问小技巧

lucene为了能够是信息存储的空间更小,访问速度更快,用了一些小技巧,下面介绍一些技巧:1.  Prefix + Suffix 在保存Term Dictionary的时候,会保存几乎所有的词,这样索引文件会非常大,当某个词跟前面一个词拥有相同前缀的时候,后面的词仅仅保存前缀在词中得偏移,以及除了前缀之外的字符串。比如存储如下几个词: term,  termagancy,  terma

2016-07-05 11:29:46 657

原创 lucene 4.6 之indexing 之 IndexWriter, DocumentWriter

lucene 的操作主要分成 indexing 和 searching , 两个操作也就完成了整个闭环操作,咱们先从这个indexing说起。class IndexWriter 可以说是lucene暴露给上层应用的一个类。上层应用程序通过这个类打开lucene的索引世界。通过了解这个类得成员变量来了解这个类到底是干什么的,有几个比较重要的对象:private final Directo

2016-07-05 11:29:36 272

原创 实用sql语句

1。 加权限:grant alter,create,select,insert,update,delete,index on recommend.* to growth@10.1.1.1 Identified by "growth";flush privileges; 2.   在更新这条数据的时候更新时间:alter table feed change update_time

2016-07-05 11:29:23 209

原创 centos 搭建 httpd 服务器 以及配置多域名 反向代理

首先使用  yum 安装  输入命令:yum install httpd  php然后理论上httpd 已经把 php modul加进去了 没加请手动添加:LoadModule php5_module modules/libphp5.so 想要在html中执行php 代码,表示以下后缀名可以使用php引擎,请输入:AddType application/x-httpd-php

2016-07-05 11:29:12 1001

原创 lucene 4.6 之索引文件格式

名词解释:document 包含一系列的fieldsfield是一系列terms的代号term是一系列的bytes 倒排索引:这个索引存储了关于这个term的一些统计,为什么叫做倒排索引,因为这个能够列出包含这个term的所有文档,这是正常关系的一个逆,正常关系是一个文档列出里面有哪些词。 fields的类型:一个field能够被stored,如果这么设置,他会

2016-07-05 11:29:02 259

原创 lucene 之 全文检索概述

我们日常生活中的数据可以分成两种,一种是结构化数据,还有一种是非结构化数据。结构化数据就是固定格式和有限长度的数据,比如数据库和元数据等等。非结构化就是无固定格式和不定长的数据,比如邮件和word文档。还有介于两者之间的,半结构化数据,比如XML,html等,看具体需求可以有不同的处理方法。非结构化数据还可以叫做全文数据。搜索引擎一般是针对这种数据来索引。一种最直观的方法可以顺

2016-07-05 11:28:52 233

原创 find 用法以及经典案例

删除5天以上的log:  find deploy/log -type f -ctime +5 -exec rm -f {} \; 替换文件夹下指定文件字符串:  find . -name "*.html" | xargs sed -i "s/xxxx/oooo/g" 注意特殊字符的转义 如 [{($ 比如      {:U('item/index',array('id'=>

2016-07-05 11:28:43 362

原创 ssh 免密码登陆

ssh-keygen -t rsa (连续三次回车,即在本地生成了公钥和私钥,不设置密码ssh root@B "mkdir .ssh;chmod 0700 .ssh" (需要输入密码) scp ~/.ssh/id_rsa.pub root@B:~/.ssh (需要输入密码) 在B上的命令: touch /root/.ssh/authorized_keys (如果已经存在这个文件, 跳过这条) ca

2016-07-05 11:28:33 275

原创 solr searching 过程解析

翻译自 Apache Solr Reference Guide  solr提供了一个十分灵活,可拓展的搜索特性,当我们发送一个请求的时候,一个search query 被一个叫做requst handler处理,solr提供许多类型的request handler,有的是为了处理搜索请求的,还有一些设计成帮助管理请求的。 能够处理搜索请求的request handler叫做 que

2016-07-05 11:28:21 302

原创 Thread 状态详解

原文:http://www.cnblogs.com/DreamSea/archive/2012/01/11/JavaThread.html 不废话直接上图:1)优先级(priority)每个类都有自己的优先级,一般property用1-10的整数表示,默认优先级是5,优先级最高是10;优先级高的线程并不一定比优先级低的线程执行的机会高,只是执行的机率高;默认一个线程的优先级和创建他

2016-07-05 11:28:10 310

原创 solr indexing 和基本的数据操作

翻译自 Apache Solr Reference Guide indexing:solr的索引能够接受不同途径的index,包括XML文件,CSV文件,数据库里的表,或者word,PDF中的信息。有三种方式可以建立solr的索引,可以用tika中的solr cell 来给word,PDF等office文件来建立索引,可以使用http请求来建,还可以使用提供的标准API,这种方式是

2016-07-05 11:28:00 637

原创 理解solr中的 Analyzer,Tokenizer,Filter

翻译自 Apache Solr Reference Guide Analyzer:analyzer负责检查这个field,然后生成一个token流,一般作为fieldType的一个字节点存在,比如: <filter class="solr.WordDelimiterFilterFactory" generateWordPar

2016-07-05 11:27:50 767

原创 solr Document,Fields,Schema设计概况

翻译自 Apache Solr Reference Guide  solr一个最基本的设计原则是简洁, 你告诉他很多信息,然后问他一些问题,他会给你回答的一段信息,你喂给他的这部分叫做 indexing, 你问他的问题叫做 query。一个理解solr的方法是举个例子,我们用一个美食的活页本,每一次你加一个活页到这本书中,你更新在最后面的索引,你列举菜的每个成分和页码在最后,设想一下你

2016-07-05 11:27:39 541

原创 solr admin UI

翻译自 Apache Solr Reference Guide   如果用solr自带的jetty来运行程序,http://hostname:8983/solr/  是主界面。左边是logo和菜单, 以此作用是,看一些系统信息,系统打出来的log,每一个Core的信息,java system的参数,线程运行情况。 在每一个ui的最底端,是一些帮助文档连接到一些官网,关于amdi

2016-07-05 11:27:29 562

原创 进程cpu过高问题排查

一,结合linux基本命令和jmap,jstack等工具。 根据top命令,发现PID为28555的Java进程占用CPU高达200%,出现故障。 通过ps aux | grep PID命令,可以进一步确定是哪个进程出现了问题。怎么定位到具体线程或者代码呢? 显示当前java进程的线程列表ps -mp pid -o THREAD,tid,time从中可以找到了耗时最

2016-07-05 11:27:20 3756

原创 mahout中LDA简介以及示例

翻译自: https://cwiki.apache.org/confluence/display/MAHOUT/Latent+Dirichlet+Allocation 简介:Latent Dirichlet Allocation (Blei et al, 2003)是一个强大的学习方法将words聚到一些topics里面,以及把一些document表示成topics的一些集合。主

2016-07-05 11:27:07 418

原创 awk and hadoop 之reducer

配合上面一篇 mapper篇,这篇主要讲在reducer的时候怎么处理两个文件中的内容,在mapper中我们给每个文件中的内容打了 tag ,在第二个字段,然后就能处理了,只要key一样,就可以弄到一个文件中去。awk -F '\t' '{ id = $1; tag = $2; if (0 == tag){ idPre = $1; }else (1 == ta

2016-07-05 11:26:57 321

原创 awk join操作

有没有遇到场景,要把两个集合做一个join操作,用awk我们可以很方便的实现这个效果,设计到awk如何从两个文件中读取内容.直接上代码:awk -F ',' 'BEGIN{

2016-07-05 11:26:46 363

原创 solr 跑起来

一个项目要求,需要做一个站内搜索,由于偏爱apache 的东西,由于喜欢他们的wiki,所以选择了solr,所以选择了tomcat 作为容器。我们的数据一般都放在db中, 所以在初始化的时候,我们必须从数据库中倒入数据,作为原始的积累。 好的,三步走,跟我来。1.  从apache的官网下载solr 和  tomcat 最新的包,并解压。2.  在solr的example中自带

2016-07-05 11:26:26 175

原创 awk 常用函数

Copy From: http://blog.csdn.net/xgdofull/article/details/5429858awk提供了许多强大的字符串函数,见下表:awk内置字符串函数gsub(r,s)    在整个$0中用s替代rgsub(r,s,t)    在整个t中用s替代rindex(s,t)    返回s中字符串t的第一位置length(s)    返回s长度match(s,r

2016-07-05 11:26:16 640

原创 awk and hadoop之mapper

1.  在awk 中mapper的时候我们经常会合并不同的文件,取我们想要的不同的字段。 awk -F "\t" '{ filename = ENVIRON["mapreduce_map_input_file"]; if (index(filename, "xxxx") > 0) { // xxx } else { //xxxx }

2016-07-05 11:26:04 1014

原创 正则表达式优化

正则表达式的优化  在Jeffrey E. F. Friedl 的>中提到了几种技巧。今天着重说一种比较实用的。 比较简单的:        在类似 .* 或者 [\s\S]*中匹配的时候,量词* 默认是贪婪的,启用最大匹配模式, 会匹配到尽量多的字符串,如果我们的需求是匹配text中的text,这样就不适用了。具体来说,我们假设这个正则表达式是: .*但是如果目标字符串很长 text

2016-07-05 11:25:54 701

原创 正则表达式 元字符备查

将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。^  匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。$  匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配“\

2016-07-05 11:25:45 211

原创 linux java 线上问题排查

转自: http://www.myexception.cn/operating-system/415201.html 线上故障问题排查技能记载一1. pgrep 查询进程的工具 pgrep 是通过程序的名字来查询进程的工具,一般是用来判断程序是否正在运行。在服务器的配置和管理中,这个工具常被应用,简单明了用法: pgrep 参数选项 程序名eg: pgrep java #查询出

2016-07-05 11:25:35 520

原创 postfix 扣下退信

有时候我们希望往外的发的邮件给你退回来的邮件接下,但是不做处理。这时候需要设置:1.  在master.cf中设置新的传输法:ondemand     unix    -   -   n   -   -   smtp2.  要求postfix自动延缓任何通过ondemand递送的邮件。只要将新设的 ondemand传输法列在main.cf的defer_transports参数中,就

2016-07-05 11:25:25 1075

原创 linux 重命名 rename

废话不说 直接上脚本 ,本人亲测好使。 #!/bin/bash #script_name:rename_ALLfind .

2016-07-05 11:25:15 3028

原创 shell stdin 变 参数

有时候我们想让一个标准输入流变成下一个脚本的参数,就可以使用xargsecho ok | xargs  sh  ok.sh 这个时候  ok.sh 的参数就是 ok同理,find 也是一样find / -type f -print | xargs grep "device"

2016-07-05 11:25:03 2850

原创 java在命令行中加入从classpath加载resource

有很多时间需要将 resource 加入到 classpath中 如一些配置文件,如果写死配置文件的路径,不方便迁移,不够优雅,所以我们必须在代码中写相对路径,我一般通过  getClass().getResourceAsStream("/xxx.txt") 来获取这些配置文件, 通过 classloader  也是可以的。在一般生产环境中,java程序都是通过命令行写成的,

2016-07-05 11:24:53 2626

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除