forrestxingyunfei-CSDN博客

原创 oozie修改为GMT时间

1，修改oozie-site.xml:<property> <name>oozie.processing.timezone</name> <value>GMT+0800</value> </property>2,修改/opt/setup/oozie-4.0.0-cdh5.3.6/oozie-ser...

2018-04-07 15:13:19 527

原创 Solr3---SolrJ的使用

1，什么是solrJ 2，依赖的包 3，添加文档 3.1，实现步骤 4，删除文档 5，修改文档 6，查询文档 6.1简单查询 6.2 复杂查询 7，总结

2017-09-09 23:34:23 494

原创 Solr2---域的类型和分类以及中文分词

一，域的类型和分类 C:\solrhome\collection2\conf\schema.xml二，配置中文分词 1，拷贝IKAnalyzer2012FF_u1.jar到apache-tomcat-7.0.81\webapps\solr\WEB-INF\lib目录下面2，拷贝配置文件ext.dic，IKAnalyzer.cfg.xml，stopword.dic到apache-tomcat-7.

2017-09-01 18:30:36 1546

原创 Solr1---什么是Solr以及安装配置

Solr 是Apache下的一个顶级开源项目，采用Java开发，它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化。Solr可以独立运行，运行在Jetty、Tomcat等这些Servlet容器中，Solr 索引的实现方法很简单，用 POST 方法向 Solr 服务器发送一个描述 Field 及其内容的

2017-08-31 18:37:37 430

原创 lucene三---中文分词器

1.1. 中文分析器1.1.1. Lucene自带中文分词器l StandardAnalyzer：单字分词：就是按照中文一个字一个字地进行分词。如：“我爱中国”，效果：“我”、“爱”、“中”、“国”。l CJKAnalyzer二分法分词：按两个字进行切分。如：“我是中国人”，效果：“我是”、“是中”、“中国”“国人”。上边两个分词器无法满足需求。l S

2017-08-31 15:25:05 871

原创 lucene二----luke的使用

1，将安装包放到根目录下2，java -jar lukeall-4.10.3.jar

2017-08-31 13:53:55 349 1

原创 lucene一---基本原理和结构

1 什么是全文检索1.1 结构化数据和非结构化数据我们生活中的数据总体分为两种：结构化数据和非结构化数据。 · 结构化数据：指具有固定格式或有限长度的数据，如数据库中的数据，元数据等。· 非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。1.2 对结构化数据的搜索对数据库的搜索，用SQL语句。再如对元数据的搜索，如

2017-08-31 10:20:12 342

原创 maven四

1，maven私服1.1私服安装2，仓库类型3，上传jar到私服4，从私服上下载Jar

2017-08-30 10:46:46 263

原创 maven三

1，传递依赖冲突解决2，ssh配置文件加载过程

2017-08-30 10:16:32 253

原创 maven二

1,maven的生命周期2，eclipse配置maven

2017-08-21 17:50:33 371

原创 maven一

1，maven的优点2，maven的好处如何实现3，maven的安装和配置4，本地仓库的配置5，标准目录结构6,maven的标准命令

2017-08-21 10:10:34 242

转载分布式模式之Broker模式

问题来源：创建一个游戏系统，其将运行在互联网的环境中。客户端通过WWW服务或特定的客户端软件连接到游戏服务器，随着流量的增加，系统不断的膨胀，最终后台数据、业务逻辑被分布式的部署。然而相比中心化的系统，复杂度被无可避免的增大了，该如何降低各个组件之间的耦合度。挑战：需要保证可伸缩性、可维护性、可更新性，需要将服务划分为各个相对独立的组件，组件被分布式的部署，它们之间通过进程间通信方

2017-06-08 10:53:59 447

原创 hive数据压缩技术001

一、压缩方案比较关于Hadoop HDFS文件的压缩格式选择，我们通过多个真实的Track数据做测试，得出结论如下：1. 系统的默认压缩编码方式 DefaultCodec 无论在压缩性能上还是压缩比上，都优于GZIP 压缩编码。这一点与网上的一些观点不大一致，网上不少人认为GZIP的压缩比要高一些，估计和Cloudera的封装及我们Track的数据类型有关。2. Hive文

2017-06-05 22:06:01 338

原创 Hive作业优化

1、Join原则将条目少的表/子查询放在 Join的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出的几率。当一个小表关联一个超大表时，容易发生数据倾斜，可以用MapJoin把小表全部加载到内存在map端进行join，避免reducer处理。如：SELECT /*+ MAPJOIN(use

2017-06-04 23:09:30 406

原创 jdbc通过hive server2访问hive

1，pom配置： org.apache.hadoop hadoop-client 2.6.0-cdh5.8.3 org.apache.hadoop hadoop-common 2.6.0-cdh5.8.3 org.apache.hive hive-jd

2017-06-03 22:55:08 490

原创 hive-udaf开发实例1

1，pom配置： org.apache.hive hive-exec 1.1.0-cdh5.8.3 org.apache.hadoop hadoop-client 2.6.0-cdh5.8.32,java代码：package com.ibeifeng.udaf;import org.apache

2017-06-03 22:49:24 691

原创 hive-udf开发实例1

1，pom配置： org.apache.hive hive-exec 1.1.0-cdh5.8.3 org.apache.hadoop hadoop-client 2.6.0-cdh5.8.32,java代码：package com.ibeifeng.udf;import java.util.r

2017-06-02 21:52:08 476 2

转载 HA 场景下访问 HDFS JAVA API Client

package cn.itacst.hadoop.hdfs;import java.io.FileInputStream;import java.io.InputStream;import java.io.OutputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.a

2017-05-29 00:51:30 1162

原创 jvm_outofmemory_JavaVMStackSOF

package cn.itcast_03_jvm.outofmemory;/** * 虚拟机栈和本地方法栈OOM测试 * VM Args：-Xss128k */public class JavaVMStackSOF {private int stackLength = 1;public void stackLeak() {stackLength++;

2017-03-25 23:56:50 551

原创 jvm_outofmemory_JavaVMStackOOM

package cn.itcast_03_jvm.outofmemory;/** * 线程导致内存溢出异常 * VM Args：-Xss2M(这时候不妨设置大些) * 容易导致系统假死 */public class JavaVMStackOOM {private void dontStop() {while (true) {}}publ

2017-03-25 23:56:00 482

原创 jvm_outofmemory_HeapOOM

package cn.itcast_03_jvm.outofmemory;import java.util.ArrayList;import java.util.List;/** * 演示堆内存溢出 * 通过run configurations配置下列参数 * VM Args：-Xms20m -Xmx20m -XX:+HeapDumpOnOutOfMemor

2017-03-25 23:54:57 245

原创 jvm_outofmemory_

package cn.itcast_03_jvm.outofmemory;import java.lang.reflect.Field;import sun.misc.Unsafe;/** * 本机直接内存溢出 * VM Args：-Xmx20M -XX:MaxDirectMemorySize=10M */public class DirectM

2017-03-25 23:53:41 298

原创 jvm_demo_TestThread

package cn.itcast_03_jvm.demo;import java.io.BufferedReader;import java.io.InputStreamReader;public class TestThread {/*** 死循环演示* * @param args*/public static void createBusy

2017-03-25 23:52:16 269

原创 jvm_demo_TestDeadThread

package cn.itcast_03_jvm.demo;public class TestDeadThread implements Runnable {int a, b;public TestDeadThread(int a, int b) {this.a = a;this.b = b;}@Overridepublic void run

2017-03-25 23:51:18 357

原创 jvm_demo_TestDeadThread

package cn.itcast_03_jvm.demo;import java.util.ArrayList;/** * 64kb/50毫秒 * @author wilson * */public class TestMemory {static class OOMObject {public byte[] placeholder = new byt

2017-03-25 23:49:16 251

原创企业大数据平台三：企业大数据平台安装

企业大数据平台三：企业大数据平台安装标签（空格分隔）：企业大数据平台企业大数据平台三企业大数据平台安装一CM 5x介绍二CM安装三添加集群四问题解决一，CM 5.x介绍分布式： –主节点：Cloudera Manager Server –从节点：Cloudera Manager Agent –数据库:PostgreSQl安装方式：一：在线安装（联网）–rpm 二：离线安装

2016-07-23 21:17:17 3380

原创企业大数据平台二：企业大数据平台环境准备

企业大数据平台二：企业大数据平台环境准备标签（空格分隔）：企业大数据平台企业大数据平台二企业大数据平台环境准备一Hadoop发型版本二准备工作一,Hadoop发型版本1，apache版本–开源版本 2，Cloudera版本:解决各个框架的兼容性问题和版本选择，修复了企业中一些常见的问题http://archive.cloudera.com/cdh5/cdh/5.3.x--最稳定CM 5

2016-07-23 21:16:32 844

原创企业大数据平台一：企业需求及相关的基本组件

企业大数据平台一：企业需求及相关的基本组件标签（空格分隔）：企业大数据平台企业大数据平台一企业需求及相关的基本组件一企业需求二基本组件一，企业需求：第一方面：数据分析： * MapReduce———Hive:离线分析 * Spark—实时（相对来说） * 实时分析：Storm(毫秒级别) Spark Streaming(秒级别) * 深度

2016-07-23 21:15:12 1884

原创 Redis学习三：redis的sentinel使用

Redis学习三：redis的sentinel使用标签（空格分隔）： Redis一，手动修改运行时更改master-slave 修改一台slave(设为A)为new master 1) 命令该服务不做其他redis服务的slave 命令: slaveof no one 2) 修改其readonly为yes其他的slave再指向new master A 1) 命令该服务为new

2016-07-07 11:08:06 451

Redis学习一：Redis初步标签（空格分隔）： Redis一，edis是什么:Redis is an open source, BSD licensed, advanced key-value store. It is often referred to as a data structure server since keys can contain strings, hashes, list

2016-07-05 10:19:21 1430

原创 Redis学习二

Redis学习二标签（空格分隔）： Redis一,link 链表结构1,lpush key value (rpush插入到链表尾部) 作用: 把值插入到链接头部2,rpop key（lpop key 返回并删除链表的头元素）作用: 返回并删除链表尾元素 3,lrange key start stop 作用: 返回链表中[start ,stop]中的元素规律: 左数从0开始,右数从-1

2016-07-05 10:18:34 2302

原创 scala学习八：scala的actor

scala学习八：scala的actor标签（空格分隔）： scala[Toc]一，actor的创建和使用import scala.actors._//Actor是一个抽象类class HiActor extends Actor{ def act():Unit ={ //处理消息 while(true){ receive{

2016-06-19 21:38:45 719

原创 scala学习七：scala的高级特性

scala学习七：scala的高级特性标签（空格分隔）： scala一，泛型类类和特质可以带类型参数，使用[]来定义类型参数//T:泛型类的类型class GenericClass[T]{ private var content:T=_ def set(value:T) ={content=value} def get():T={content}}//testobje

2016-06-18 23:26:10 3291

原创 scala学习六：scala函数式编程进阶

scala学习六：scala函数式编程进阶标签（空格分隔）： scalascala学习六scala函数式编程进阶一集合二列表三序列四集五模式匹配六Case Class一，集合不可变集合：集合的元素是不可以改变的val math=scala.collection.immutable.Map("alice"->80)可变集合：val math=scala.collection.mutabl

2016-06-18 18:37:39 1329

原创 scala学习五：scala函数式编程

scala学习五：scala函数式编程标签（空格分隔）： scalascala学习五scala函数式编程一值函数二匿名函数三带函数参数的函数四闭包五柯里化函数六高阶函数实例一，值函数值函数：将函数作为变量的值def myfun1(name:String):String="hello "+nameval v1=myfun1("tom")println(myfun1(v1))二,匿名

2016-06-14 22:18:26 791

原创 scala学习三：scala面向对象

scala学习三：scala面向对象标签（空格分隔）： scalascala学习三scala面向对象一面向对象的基本概念二构造器三object四scala中的apply方法五继承一，面向对象的基本概念把数据和对数据操作的方法放在一起，作为一个相互依存的整体–对象三大特征：封装，继承，多态package com.my.cn/** * Created by forrest on 201

2016-06-12 19:49:04 2313

原创 scala学习二：scala进阶

scala学习二：scala进阶标签（空格分隔）： scalascala学习二scala进阶一函数的求值策略二scala的函数参数三scala的Lazy值四scala的异常处理五数组类型六scala的Map和Tuple一，函数的求值策略call by value call by name(=>)def test1(x:Int,y:Int):Int=x+x

2016-06-11 22:04:24 1109

原创 scala学习一：scala入门

scala学习一：scala入门标签（空格分隔）： scalascala学习一scala入门一搭建开发环境二scala 常用的数据类型三scala变量的声明和使用四函数的定义和使用五条件表达式六循环一，搭建开发环境1，jdk的安装和环境配置 2，安装scala sdk并且配置环境变量 3，安装scala集成开发环境二，scala 常用的数据类型数值类型：Byte,Short,I

2016-06-08 02:01:34 610

原创 Storm学习一： Storm简介

Storm学习一： Storm简介标签（空格分隔）： StormStorm学习一 Storm简介一Storm一些关键特性二Storm的原理和概念三Storm的本地安装一，Storm一些关键特性1，适用场景广泛： storm可以实时处理消息和更新DB，对一个数据量进行持续的查询并返回客户端（持续计算），对一个耗资源的查询作实时并行化的处理(分布式方法调用，即DRPC），storm的这些基础AP

2016-05-12 16:51:10 722

空空如也

空空如也