自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 FP-Growth序列频繁模式挖掘

1算法设计目标输入不同的命令是用户使用Linux服务器的基本途径,通过长时间采集不同用户在使用服务器过程中所使用的命令序列,挖掘其中频繁出现的命令序列,可以帮助我们了解用户使用该服务器的基本规律。此外,如果存在多台服务器,那么我们可以分析挖掘这些服务器中用户输入的命令序列,挖掘其中存在的频繁模式,可以了解用户使用这些服务器的根本目的。如果当这些服务器被同一个黑客攻击,或者这些服务器遭受了同

2016-12-30 18:20:08 4567

原创 数据集成字符串匹配算法:EditDIstance,NeedlemanWunch,Soundex,Jaccard

出品人:孙林,乔嘉林String matchingEditDIstance计算两个长度差不多的字符串的差距,距离表示从一个字符串最少改几个字符能变成另一个。越小越相近。适用任意两个字符串的比较。“abc”“abb”结果为1public class EditDistance {public static void main(String[] args){ System.ou

2016-12-30 13:49:58 1125

原创 使用Spark MLLib的PrefixSpan算法示例代码

http://spark.apache.org/docs/latest/mllib-frequent-pattern-mining.htmlPrefixSpanimport java.util.Arrays;import java.util.List;import org.apache.spark.mllib.fpm.PrefixSpan;import org.apache.spark.ml

2016-12-30 13:49:53 2038

原创 Spark集群部署流程

首先配置hadoop集群完成之后下载spark2.0.1-hadoop-1.6.0编译好的解压缩,上传到master节点配置 Sparkcd ~/workspace/spark-1.3.0/conf #进入spark配置目录cp spark-env.sh.template spark-env.sh #从配置模板复制vi spark-env.sh #添加配置内容在spark-env.

2016-12-30 13:49:51 410

原创 将java文件打包提交MapReduce任务流程

1.首先拷贝hadoop源码里的WordCount.java到一个目录wordcount下(源码在下面)2.在wordcount目录下新建目录bin准备存放class文件3.编译WordCount.java文件(编译前先把java文件中的package包名删掉):javac -classpath /usr/local/hadoop/share/hadoop/common/hadoop-com

2016-12-30 13:49:48 1045

原创 数据库中的一致性

系统的一致性在发展过程中产生的经典概念:ACID原子性:事务的原子性是指事务必须是一个原子的操作序列单元。事务中包含的各项操作在一次执行过程中,要么全部执行,要么全部不执行。任何一项操作失败都将导致整个事务失败,同时其他已经被执行的操作都将被撤销并回滚。只有所有的操作全部成功,整个事务才算是成功完成。一致性:事务的一致性是指事务的执行不能破坏数据库数据的完整性和一致性,一个事务在执行前后...

2016-12-30 13:49:41 8138

原创 opencv示例程序

读取图片,在窗口中显示#include#include #include using namespace cv;int main(){ // 读??入??一??张?图??片?(???游??戏??原-画-)?? Mat img=imread( "pic.jpg");

2016-12-30 13:49:36 1028

原创 opencv基本函数

img.at(x,y)取一个点的像素 (灰度图) img.rols 列数img.cols 行数img.channals() 通道数   Mat构造器Mat A=imread("D:\\1.jpg");         Mat B=A;      Mat C(A);/*B、C都是浅拷贝,只复制矩阵指针,它们指向的是同一个内存空间,改变其中一个,剩下

2016-12-30 13:49:31 539

原创 jdbc示例

java在mysql中查询数据import java.sql.*;String JDBC_DRIVER = "com.mysql.jdbc.Driver"; String DB_URL = "jdbc:mysql://localhost/test"; // Database credentials String USER = "root";

2016-12-30 13:49:28 486

原创 SQL示例

创建sequence序列create sequence TELLER. LOGIN_HISTORY_SEQminvalue 1nomaxvaluestart with 1increment by 1cache 20nocycle;  创建插入数据的触发器create or replace trigger "trigger1

2016-12-30 13:49:26 350

原创 java编写spark程序

http://blog.csdn.net/lizhongfu2013/article/details/9262145 importjava.net.URI; import java.util.Arrays; import java.io.*; import org.apache.hadoop.io.*; import org.apache.hadoop.conf.C

2016-12-30 13:49:21 1042

原创 spark基础

RDD操作详解1——Transformation和Actions概况http://www.jianshu.com/p/4ff6afbbafe4 Spark Programming Guide(比较好)http://spark.apache.org/docs/latest/programming-guide.html#tab_java_0   Spark编程指引(三)

2016-12-30 13:49:18 380

原创 java实现RDD算子

spark基础与java api介绍http://www.cnblogs.com/tovin/p/3832405.html  textFile:                                                可将本地文件或HDFS文件转换成RDD,读取本地文件需要各节点上都存在,或者通过网络共享该文件 JavaRDD lines =

2016-12-30 13:49:15 523

原创 ubuntu各种软件安装问题及解决

通过npm安装plyql后输入plyql没有文件或目录ln -s /usr/bin/nodejs /usr/bin/node  ubuntu下无法解析或打开软件包列表或状态文件第一步 sudo rm /var/lib/apt/lists/* -vf第二步 sudo apt-get update  安装VMware 时出现The Microsoft Runti

2016-12-30 13:49:00 1365

原创 hadoop shell执行示例wordcount jar包

创建用户目录bin/hdfs dfs -mkdir -p /user/hadoop创建input目录bin/hdfs dfs -mkdir input导入数据bin/hdfs dfs -put etc/hadoop/*.xml inputHadoop运行程序时,默认输出目录不能存在,删除output文件夹bin/hdfs dfs -rm -r /use...

2016-12-30 13:48:55 2775

原创 命令行编译运行WordCount.java

1.首先拷贝hadoop源码里的WordCount.java到一个目录wordcount下 2.在wordcount目录下新建目录bin准备存放class文件 3.编译WordCount.java文件(编译前先把java文件中的package包名删掉):javac -classpath /usr/local/hadoop/share/hadoop/common/hadoop-c

2016-12-30 13:48:49 1637

原创 在linux中使用eclipse开发mapreduce

hadoop-eclipse-plugin下载地址https://github.com/winghc/hadoop2x-eclipse-plugin eclipse直接在Ubuntu software center下载安装默认安装路径为/usr/lib/eclipse jdk版本需要1.7的java -version检查版本,如果不是1.7的执行以下命令sudo a

2016-12-30 13:48:47 2183 1

原创 java操作hdfs

1、创建目录1234567891011121314import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import or

2016-12-30 13:48:42 401

原创 配置hadoop集群简易版流程

主机ssh到主机ssh localhostcd ~/.ssh/                     # 若没有该目录,请先执行一次ssh localhostssh-keygen -t rsa              # 会有提示,都按回车就可以cat ./id_rsa.pub >> ./authorized_keys  ssh s3   子节点新建hado

2016-12-30 13:48:39 487

原创 hadoop-shell常用命令

Hadoop 重要的端口1.Job Tracker 管理界面:500302.HDFS 管理界面 :500703.HDFS通信端口:90004.MapReduce通信端口:9001常用访问页面1. HDFS 界面        http://hostname:500702. MapReduce 管理界面        http://hostname:50030

2016-12-30 13:48:37 489

原创 github常见问题

如果输入$ git remote add origin [email protected]:djqiang(github帐号名)/gitdemo(项目名).git     提示出错信息:fatal: remote origin already exists.    解决办法如下:    1、先输入$ git remote rm origin     2、再输入$ git re

2016-12-30 13:48:34 591

原创 git基本使用方法

廖雪峰网站http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000  初始化一个Git仓库,使用git init命令。  添加文件到Git仓库,分两步:第一步,使用命令git add ,注意,可反复多次使用,添加多个文件;第二步

2016-12-30 13:48:31 786

原创 avro环境配置及基础知识

avrofield命名规则全名的名字部分和record的field名字必须: 以[A-Za-z_]开头接下来的名字中只能包含[A-Za-z0-9_]                 dependency>                                 groupId> org.apache.hadoopgroupId >

2016-12-30 13:48:21 1476

原创 mapreduce操作avro的问题

问题:在运行mapreduce读取avro的record时:Found interface org.apache.hadoop.mapreduce.TaskAttemptContext, but class was expected     at org.apache.avro.mapreduce.AvroKeyInputFormat.createRecordReader 原因:avr

2016-12-30 13:48:16 678

原创 Android studio 快捷键

查询方法help-tip of the day 打开一个类   Ctrl+N 打开一个文件  Ctrl+shift+N 自动完成代码  Ctrl+空格 查询变量或方法使用地方 Alt+f7 查询光标处变量或方法的文档  Ctrl+Q 转到定义 Ctrl+鼠标左键 改名 shift+F6 实现接口方法  Ctrl+i ove

2016-12-30 13:48:08 325

原创 Android Studio消除SDK更新时出现错误及解决

消除SDK更新时,有可能会出现这样的错误:Download interrupted: hostname in certificate didn't match: <dl-ssl.google.com> != <www.google.com>Download interrupted: Connection to https://dl-ssl.google.com ref...

2016-12-30 13:48:06 956

原创 Oracle数据库一些操作

创建sequence序列create sequence TELLER. LOGIN_HISTORY_SEQminvalue 1nomaxvaluestart with 1increment by 1cache 20nocycle; 创建插入数据的触发器create or replace trigger "trigger1"before insert 

2016-12-30 13:47:56 320

原创 中文新闻文本分类

http://www.cnblogs.com/CherishFX/p/4005336.html 下载搜狗新闻语料库  1.  下载ictclas4j  后面的附件中,我有放上ictclas4j的源码包ictclas4j.zip2.  在Eclipse中新建项目并进行相关配置  首先把 ictclas4j解压缩,然后把 Data文件夹整个拷贝到 Eclipse项目的文

2016-12-30 13:47:51 4087

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除