taxueguilai1992-CSDN博客

原创使用maven给工程打包

使用maven给工程打包1.修改pom.xml文件因为我这里是一个jdbc的程序，所以需要引用mysql-connect的jar包。下面是pom.xml文件，这是使用了maven-shade-plugin的插件。<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchem

2016-02-25 16:07:17 848

原创 centos7下安装mysql

一.系统环境centos: Centos Linux release 7.2.1511mysql: mysql 5.7二.安装步骤1.下载对应的mysql安装包这里我下载的是：mysql-5.7.10-1.el7.x86_64.rpm-bundle.tar（RedHat Enterprise Linux）2.解压并安装#创建目录 /usr/local/mysqlmkdir /usr/loca

2016-01-23 13:55:28 967

原创 python中reduce函数的用法

1.说明reduce:将一个可以迭代的对象应用到两个带有参数的方法上，我们称这个方法为fun,遍历这个可迭代的对象，将其中元素依次作为fun的参数，但是这个函数有两个参数，那些作为参数呢？reduce(fun,sequence[,initial_val])reduce函数有三个参数，第一个参数就是作用函数，第二个函数就是可迭代的对象，第三个是迭代初始值。如果存在第三个参数，也就是有初始迭代对象，

2015-12-22 22:03:53 8639

原创 Mondrian Schema设计

schema概念一个Schema定义了一个多维度的数据库，它包含了一个逻辑模型（其中包含了cubes,hierarchies，members），模型对应的物理模型的映射。逻辑模型包含的这些结构用来在MDX语言中写查询：cubes,dimensions,hierarchies,levels,members.物理模型通过逻辑模型展现的数据源，它一般是星型结构（在关系型数据库中的一系列表）。sch

2015-11-23 13:24:20 2316

原创 hbase脚本操作

1.启动整个集群：{HBASE_HOME}/bin/start-hbase.sh 2.停止整个集群：{HBASE_HOME}/bin/stop-hbase.sh 3.启动或停止所有的regionserver或zookeeper或backup-master： {HBASE_HOME}/bin/hbase-daemons.sh 4.启动或停止，单个master或regionserver或z

2015-11-15 12:21:19 614

原创 phoenix的一些操作以及注意点

一.与HBase的映射关系在phoenix中创建表格会自动映射到hbase中如下sql语句,create table hbase_col_test( pk varchar not null primary key, ---主键映射到HBase中的Rowkey中 "cf1"."col1" varchar, ---对应HBase中的列族cf1,列名为co

2015-11-15 12:10:09 1159

一.介绍BloomFilter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法，通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。二.解释说明我们举个例子，假设我们需要写一个(web crawler),由于网络链接错综复杂，在爬行很可能形成”环”，为了避免这种情况的出现，我们需要知道蜘蛛已经访问过的那些URL,给一个URL，怎样知道是否已经访问过呢，

2015-11-11 13:47:03 648

原创 JSP,Servlet,JSF 的区别

1.JSPJSP(JavaServer Pages) 是一种java视图技术，它运行在服务器上，允许我们写入模版文本（例如：客户端语言：HTML,CSS,JavaScript等）。JSP支持taglibs,通过java代码片可以控制页面流和动态输出。其中一个大家熟知的taglib 是JSTL.JSP也支持解释语言（它能够用来访问后端数据，通过在page,request,application sco

2015-11-06 16:12:02 4013

原创 hive常见操作

命令行的操作quit/exit 退出交互shellreset 重置配置到默认值set key=value 设置配置变量的值set 打印所有的配置变量（被hive或用户覆盖的变量）add FILES/JARS/ARCHIVES {filepath} {filepath}* 在分布式缓存中添加文件，jar包，或archiveslist FILES/JARS/ARCHIVES

2015-10-24 21:44:40 632

原创 CentOs的开机启动过程

CentOs开启启动的流程主要有以下几个步骤：一.POST加电自检POST（POST ON SELF TEST）首先对每一个设备进行检查，完成后悔寻找存有引导记录的设备，找到读入操作系统的引导记录，将系统控制权交给引导记录。二、MBR引导MBR（Master Boot Record）,MBR记录一般是在磁盘0磁道1扇区，共512字节，前446个字节是BootLoader,后面的4*16个字节是存放分

2015-10-24 20:44:43 608

原创 hive中内部表和外部表

1.区别Hive创建内部表时，会将数据移动到数据仓库指向的路径； Hive创建外部表时，仅记录数据所在的路径，不对数据的位置做改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删元数据，不删除数据，这样看来，外部表相对来说更加安全些，数据组织更加灵活。元数据：表示数据的数据，对数据及信息资源的描述性信息。2.具体操作1.创建内部表：create table if not e

2015-10-24 11:16:32 1056

原创 HBase 中存储结构

在《HBase权威指南》中看到这样一段话，对于理解HBase的物理存储是很有帮助的： The HResionServer opens the region and creates a corresponding HRegion object. When the HRegion is opened is sets up a Store instance for each HColumnFamily

2015-10-17 10:40:52 777 1

原创 intellij创建一个web应用

1.准备环境MAC OS X 10.10 tomcat8.0.27 java1.8 IntellJ 142.准备过程在使用IntelliJ创建web应用的时候，我们需要提前安装好tomcat和jdk.3.具体步骤1.创建一个web工程：File -> New -> Project，出现下面的界面，点击左上角的java，选择Web Application,如下图：点击Next,去定项目

2015-10-14 18:26:44 589

原创 python 中database的一些问题

1.MysqlDB 的Connection 共享问题关于全局变量： threadsafety 整形变量，表明线程间安全性的支持程度。 0 模块不能共享 1 模块能共享，Connection不能共享 2 模块，connection都能共享， cursor不能共享 3 模块、 connection、cursor 都能共享因为MsSQL.threadsafety=

2015-10-09 17:10:40 830

原创 mac下的mysql压缩包安装

1.环境OSX 10.10.3 mysql-5.6.272.安装过程下载压缩包：mysql-5.6.27.tar.gz将压缩包拷贝到/usr/local下，并解压 tar -zxvf mysql-5.6.27.tar.gz 重命名：mv mysql-5.6.27.tar.gz mysql修改mysql文件夹的用户组和所有者：sudo chown -R mysql:mysql mysql

2015-10-08 21:50:11 3433

原创 python连接phoenix

1.方案这里我们通过Jpype和JayDeBeApi 来连接2.过程这里我列出实例代码：import jpypeimport jaydebeapiimport osphoenix_client_jar="/data/users/huser/phoenix/phoenix-4.3.0-client.jar"args=='-Djava.class.path=%s'% phoenix_client

2015-10-08 12:33:58 4982 6

原创 JayDeBeApi的使用

1.介绍JayDeBeApi是一个python模块，可是通过它来使用java的JDBC来连接数据库。2.安装这里有多种安装方式：pip 安装：pip install JayDeBeApi运行脚本安装：首先下载这个项目，然后执行，python setup.py install使用Jython 安装：jython setup.py install3.使用其实这里和在一般的java 程序中使用jd

2015-10-08 11:07:35 15138

原创 python os相关操作

file:当前文件的路径 os.path.dirname(file):某个文件所在的目录路径（不包含文件名） os.path.join(a,b,c,…):路径构造a/b/c os.path.abspath(path):将path从相对路径转成绝对路径 os.pardir: linux相当于”../” os.getcwd(): 得到当前工作目录 os.path.split(file):

2015-10-07 17:02:36 543

原创 Jpype的使用

1.介绍jpype努力使python程序自由访问java的类库，它并不是python，一种重实现（像JPython,Jython），而是通过native或者虚拟机层面上的实现。

2015-10-02 10:40:09 1274

原创 sql语句中的group by用法

1.概述group by 就是依据by 后面的规则对数据分组，所谓的分组就是讲数据集划分成若干个’小组’，针对若干个小组做处理。2.语法规则SELECT column_name, aggregate_function(column_name)FROM table_nameWHERE column_name operator valueGROUP BY column_name3.举例说明我们有这

2015-10-02 10:34:12 20848

原创 phoenix客户端API使用

1.准备条件phoenix与Hbase已经安装好 phoenix-4.3.0 hbase-0.982.客户端使用（服务器上使用客户端）在客户端创建如下文件test.java：import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLExcepti

2015-09-23 12:16:02 2965

原创 phoenix操作注意点

一.与hbase 的映射1.空表格映射在phoenix中创建表格，会自动映射到hbase中，我们可以通过hbase shell 来查看。举个例子，我们创建了一个表，create table hbase_col_test( pk varchar not null primary key, //primary key 映射到hbase 中的rowkey

2015-09-21 12:31:38 1556

原创 ganglia安装与配置

1.准备条件相关依赖包安装好2.安装过程监控节点安装1.yum install -y ganglia ganglia-gmetad ganglia-web ganglia-gmond 2.修改/etc/ganglia/gmetad.conf data_source “Hadoop” {主机IP}:8649 其中hadoop为集群名 3.修改/etc/ganglia/gmond.conf

2015-09-15 11:41:45 681

原创服务器环境配置思路

1.实际场景在实际工作或者生产环境中，我们常常需要配置服务器的运行环境，比如一个常见的场景：hadoop+hive+hbase ,估计一般人折腾好这三项要做好几天，常常会遇到各种问题，或者ERROR或者是exception，因此一个系统的方法思维是有必要的。2.常规思路一般这些运行环境的配置与安装在网上有各种帖子，或者是官方网站，但这些资料并非完全一致，我们不知道到底听谁的，一般只能找个坑先跳下去

2015-09-10 17:49:34 409

原创 hive1.1.0与hbase0.98 整合

这里就不讲详细的步骤，主要说明几个重要的配置：在/conf/hive-site.xml 文件中需要配置HIVE_AUX_JARS_PATH，这里面尝尝容易缺少包，我将我的配置放在这里：<property> <name>hive.aux.jars.path</name> <value>file:///opt/hive/lib/guava-14.0.1.jar,file:///opt

2015-09-10 15:04:00 832

原创程序打包成可执行的jar包

1.准备环境jdk已安装，win72.具体步骤1.编译class文件 javac sort.java 2.打包成jar包：jar -cvf sort.jar sort.class 3.解压jar包：unzip sort.jar -d tmp 4.修改MANIFEST.MF文件：确定Main-class的入口，注意每一个属性后面需要有空格，最后一行需要有个换行符 5.将MANIFEST.MF文

2015-09-08 17:24:46 591

原创 Hadoop 运行wordcount 实例

一.运行环境操作系统：ubuntu14.04 hadoop版本：hadoop-2.5.2二.操作步骤我在自己电脑上搭建的是hadoop伪分布式的配置，所以wordcount实例只是在一台机器上运行的。在机器上，我的hadoop 安装目录时/usr/local/hadoop,这里我没有配置环境变量，因此是直接在目录下执行的，首先是进入hadoop安装目录 cd /usr/local/hadoop

2015-09-05 10:33:36 1342

原创 ubuntu 卸载

1.所需工具MbrFix.exe2.操作步骤将其放入C盘根目录下使用windows+R快捷键打开“运行”，输入cmd,进入控制台通过 cd C:\ 进入根目录下输入以下命令：MbrFix.exe /drive 0 fixmbr,出现对话框，回答yes找到linux系统所在的卷，删除即可。

2015-08-28 22:35:24 586

原创 IntelliJ 常用快捷键

Alt+Insert 快速生成代码（如：getter,setter,constructor,toString等方法）Ctrl+Alt+T 以某种方式包围代码块（如：if/else,try/catch,synchronized）Ctrl+/ 单行注释Ctrl +shift +/ 多行注释psvm 创建main方法sout System.out.printlnCtrl+B 打开类或方法声明

2015-08-11 10:25:00 474

原创 Java中wait，notify方法

一.介绍wait(),notify(),notifyAll()方法是位于Object类的方法，这三个方法调用的都是jvm的 native方法。wait()方法：持有该对象的线程处于等待，让出对象的控制权notify()方法：通知正在等待这个对象控制权的线程可以继续运行notifyAll()方法：通知所有等待这个对象控制权的线程继续运行二.解释说明wait方法，有三个重载的方法： - wa

2015-08-09 10:22:19 531

原创 Java容器

一、基本概念java容器类基本类型有List、Set、Queue、Map，这些类也称为集合类。Collection，一个独立的元素的列表，这些元素都服从一条或多条规则，如（List,Map,Queue都继承了Collection类）Map,一组成对的”键值对”对象，允许你使用键来查找值二.常见用法1.添加一组元素在java.util.*包中的Arrays、Collections类中都有很多使用

2015-08-08 11:04:08 294

原创 RF随机森林

一.算法介绍随机森林是一种比较新的机器学习模型。他实际上是将决策树组合成随机森林，即在特征(列)和数据(行)的使用上进行随机化，生成很多决策树，再汇总成分类树的结果。它具有很多优点： 1.由于随机性的引入，使得随机森林具有很好的抗噪声能力 2.能够处理高维度数据，不用做特征选择 3.训练速度快，比较容易实现并行计算 4.训练结束后，能够度量那些特征比较重要二.算法实现具体实现过程如下：

2015-08-05 19:50:59 1060

原创机器学习几种常见模型的介绍

这里我主要介绍以下几种模型：k近邻法朴素贝叶斯法决策树逻辑斯蒂回归支持向量机adaBoost方法K近邻法原理输入：实例的特征向量输出：实例的类别算法描述： (1)在训练集中找出与实例最近邻的k个点，涵盖这k个点的邻域记做Nk(x)N_k(x) (2)在Nk(x)N_k(x)中根据分类决策规则决定x的类别优缺点优点：精度高，对异常值不敏感，无数据输入假定缺点：计算复杂度高

2015-08-05 16:03:47 6759

原创 python中的list与矩阵的索引

问题介绍最近用python来处理数据的时候，常常遇到这样的错误： TypeError: list indices must be integers, not tuple 仔细检查才发现，常常是矩阵和列表的索引给搞混淆了，我们常常将数据保存在一个二维的列表中，如下：data=[[1,2,3,4], [2,1,3,4], [1,0,0,1]]如果数据的对应列表示的是某一种特征

2015-08-03 11:04:23 12143

原创 SVD的介绍与原理

一.SVD的介绍SVD，Singular Value Decomposition ，奇异值分解。PCA的实现一般有两种，一种是用特征值分解，一种是用奇异值分解。优点：简化数据，去除噪声，提高算法的结果缺点：数据的转换可能难以理解适用数据类型：数值型数据二.奇异值分解的定义假设MM是一个m∗nm*n的矩阵，如果存在一个分解： Mm∗n=Um∗m∑m∗nVTn∗nM_{m*n}=U_{m*m}

2015-08-01 21:12:28 9604

原创 PCA原理以及算法实现

一.算法介绍PCA（Princiapal Component Analysis）,主成分分析，是统计数据分析、特征提取和数据压缩的经典方法，起源于Pearson的早期工作。实际上，PCA主要作用就是将一个存在信息冗余的多维空间变成一个无信息冗余的较低维空间，是一种通用的降维方法。举个例子，从一幅数字图像中取出一个8x8的像素窗口，首先通过逐行扫描，变换到向量xx,其元素为64个像素的灰度值，在实时的

2015-07-31 18:20:13 3282

原创 python ,java 变量作用域

1.python的变量作用域能够改变python变量作用域的是def 、class、lambda;if/elif/else、try/except/finally、for/while这些语句并不能涉及变量值作用域的修改，也就是说在这些语句中定义的变量，在代码块以外也能够访问变量搜索路径为：local>enclosing>global>build-in 例如：def addNumbers(x,

2015-07-25 09:52:17 767

原创 python 随机数，随机序列

一、函数使用介绍python中与随机相关的函数位于random包中有几个常用的函数如下：random.random() 产生一个0-1之间的随机数random.uniform(1,10) 产生一个1-10之间均匀分布的随机数random.randint(1,10) 在1-10之间产生一个随机的整数random.ranrange(0,100,2) 从range(0,100,2)中随

2015-07-07 11:52:30 16986

原创 matlab中的随机矩阵及其相关函数的使用

一、rand函数的用法R=rand(n) 产生一个N*N的随机矩阵，其中的元素来自0-1均匀分布R=rand([M,N]) 产生一个M*N的随机矩阵R=rand(size(A)) 产生一个同矩阵A大小一致的随机矩阵举例如下：r=a+(b-a).*rand(100,1);//产生一个[a,b]之间的100*1的随机矩阵二、randi函数R=randi(IMAX,N) 产生一个N*

2015-06-22 16:00:06 5361

原创 python文件操作与输入输出

1.交互界面上的输入输出1)input与raw_input函数的使用input会假设用户输入的是合法的python表达式，当不合法是会出现错误：这里lan应该加引号,表示为一个字符串，否则就是一个不合法的字符，如果用raw_input就不会出现这样的问题，因此应该尽可能的使用raw_input: 2)字符串的格式化格式化操作符的右操作数可以是任何东西，如果是元组和映射会有所不同。1

2015-06-21 21:05:13 1242

空空如也

空空如也