- 博客(28)
- 收藏
- 关注
原创 FP-Growth序列频繁模式挖掘
1算法设计目标输入不同的命令是用户使用Linux服务器的基本途径,通过长时间采集不同用户在使用服务器过程中所使用的命令序列,挖掘其中频繁出现的命令序列,可以帮助我们了解用户使用该服务器的基本规律。此外,如果存在多台服务器,那么我们可以分析挖掘这些服务器中用户输入的命令序列,挖掘其中存在的频繁模式,可以了解用户使用这些服务器的根本目的。如果当这些服务器被同一个黑客攻击,或者这些服务器遭受了同
2016-12-30 18:20:08 4588
原创 数据集成字符串匹配算法:EditDIstance,NeedlemanWunch,Soundex,Jaccard
出品人:孙林,乔嘉林String matchingEditDIstance计算两个长度差不多的字符串的差距,距离表示从一个字符串最少改几个字符能变成另一个。越小越相近。适用任意两个字符串的比较。“abc”“abb”结果为1public class EditDistance {public static void main(String[] args){ System.ou
2016-12-30 13:49:58 1147
原创 使用Spark MLLib的PrefixSpan算法示例代码
http://spark.apache.org/docs/latest/mllib-frequent-pattern-mining.htmlPrefixSpanimport java.util.Arrays;import java.util.List;import org.apache.spark.mllib.fpm.PrefixSpan;import org.apache.spark.ml
2016-12-30 13:49:53 2069
原创 Spark集群部署流程
首先配置hadoop集群完成之后下载spark2.0.1-hadoop-1.6.0编译好的解压缩,上传到master节点配置 Sparkcd ~/workspace/spark-1.3.0/conf #进入spark配置目录cp spark-env.sh.template spark-env.sh #从配置模板复制vi spark-env.sh #添加配置内容在spark-env.
2016-12-30 13:49:51 424
原创 将java文件打包提交MapReduce任务流程
1.首先拷贝hadoop源码里的WordCount.java到一个目录wordcount下(源码在下面)2.在wordcount目录下新建目录bin准备存放class文件3.编译WordCount.java文件(编译前先把java文件中的package包名删掉):javac -classpath /usr/local/hadoop/share/hadoop/common/hadoop-com
2016-12-30 13:49:48 1063
原创 数据库中的一致性
系统的一致性在发展过程中产生的经典概念:ACID原子性:事务的原子性是指事务必须是一个原子的操作序列单元。事务中包含的各项操作在一次执行过程中,要么全部执行,要么全部不执行。任何一项操作失败都将导致整个事务失败,同时其他已经被执行的操作都将被撤销并回滚。只有所有的操作全部成功,整个事务才算是成功完成。一致性:事务的一致性是指事务的执行不能破坏数据库数据的完整性和一致性,一个事务在执行前后...
2016-12-30 13:49:41 8307
原创 opencv示例程序
读取图片,在窗口中显示#include#include #include using namespace cv;int main(){ // 读??入??一??张?图??片?(???游??戏??原-画-)?? Mat img=imread( "pic.jpg");
2016-12-30 13:49:36 1055
原创 opencv基本函数
img.at(x,y)取一个点的像素 (灰度图) img.rols 列数img.cols 行数img.channals() 通道数 Mat构造器Mat A=imread("D:\\1.jpg"); Mat B=A; Mat C(A);/*B、C都是浅拷贝,只复制矩阵指针,它们指向的是同一个内存空间,改变其中一个,剩下
2016-12-30 13:49:31 559
原创 jdbc示例
java在mysql中查询数据import java.sql.*;String JDBC_DRIVER = "com.mysql.jdbc.Driver"; String DB_URL = "jdbc:mysql://localhost/test"; // Database credentials String USER = "root";
2016-12-30 13:49:28 501
原创 SQL示例
创建sequence序列create sequence TELLER. LOGIN_HISTORY_SEQminvalue 1nomaxvaluestart with 1increment by 1cache 20nocycle; 创建插入数据的触发器create or replace trigger "trigger1
2016-12-30 13:49:26 367
原创 java编写spark程序
http://blog.csdn.net/lizhongfu2013/article/details/9262145 importjava.net.URI; import java.util.Arrays; import java.io.*; import org.apache.hadoop.io.*; import org.apache.hadoop.conf.C
2016-12-30 13:49:21 1061
原创 spark基础
RDD操作详解1——Transformation和Actions概况http://www.jianshu.com/p/4ff6afbbafe4 Spark Programming Guide(比较好)http://spark.apache.org/docs/latest/programming-guide.html#tab_java_0 Spark编程指引(三)
2016-12-30 13:49:18 390
原创 java实现RDD算子
spark基础与java api介绍http://www.cnblogs.com/tovin/p/3832405.html textFile: 可将本地文件或HDFS文件转换成RDD,读取本地文件需要各节点上都存在,或者通过网络共享该文件 JavaRDD lines =
2016-12-30 13:49:15 541
原创 ubuntu各种软件安装问题及解决
通过npm安装plyql后输入plyql没有文件或目录ln -s /usr/bin/nodejs /usr/bin/node ubuntu下无法解析或打开软件包列表或状态文件第一步 sudo rm /var/lib/apt/lists/* -vf第二步 sudo apt-get update 安装VMware 时出现The Microsoft Runti
2016-12-30 13:49:00 1406
原创 hadoop shell执行示例wordcount jar包
创建用户目录bin/hdfs dfs -mkdir -p /user/hadoop创建input目录bin/hdfs dfs -mkdir input导入数据bin/hdfs dfs -put etc/hadoop/*.xml inputHadoop运行程序时,默认输出目录不能存在,删除output文件夹bin/hdfs dfs -rm -r /use...
2016-12-30 13:48:55 2800
原创 命令行编译运行WordCount.java
1.首先拷贝hadoop源码里的WordCount.java到一个目录wordcount下 2.在wordcount目录下新建目录bin准备存放class文件 3.编译WordCount.java文件(编译前先把java文件中的package包名删掉):javac -classpath /usr/local/hadoop/share/hadoop/common/hadoop-c
2016-12-30 13:48:49 1716
原创 在linux中使用eclipse开发mapreduce
hadoop-eclipse-plugin下载地址https://github.com/winghc/hadoop2x-eclipse-plugin eclipse直接在Ubuntu software center下载安装默认安装路径为/usr/lib/eclipse jdk版本需要1.7的java -version检查版本,如果不是1.7的执行以下命令sudo a
2016-12-30 13:48:47 2228 1
原创 java操作hdfs
1、创建目录1234567891011121314import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import or
2016-12-30 13:48:42 441
原创 配置hadoop集群简易版流程
主机ssh到主机ssh localhostcd ~/.ssh/ # 若没有该目录,请先执行一次ssh localhostssh-keygen -t rsa # 会有提示,都按回车就可以cat ./id_rsa.pub >> ./authorized_keys ssh s3 子节点新建hado
2016-12-30 13:48:39 494
原创 hadoop-shell常用命令
Hadoop 重要的端口1.Job Tracker 管理界面:500302.HDFS 管理界面 :500703.HDFS通信端口:90004.MapReduce通信端口:9001常用访问页面1. HDFS 界面 http://hostname:500702. MapReduce 管理界面 http://hostname:50030
2016-12-30 13:48:37 506
原创 github常见问题
如果输入$ git remote add origin git@github.com:djqiang(github帐号名)/gitdemo(项目名).git 提示出错信息:fatal: remote origin already exists. 解决办法如下: 1、先输入$ git remote rm origin 2、再输入$ git re
2016-12-30 13:48:34 618
原创 git基本使用方法
廖雪峰网站http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000 初始化一个Git仓库,使用git init命令。 添加文件到Git仓库,分两步:第一步,使用命令git add ,注意,可反复多次使用,添加多个文件;第二步
2016-12-30 13:48:31 826
原创 avro环境配置及基础知识
avrofield命名规则全名的名字部分和record的field名字必须: 以[A-Za-z_]开头接下来的名字中只能包含[A-Za-z0-9_] dependency> groupId> org.apache.hadoopgroupId >
2016-12-30 13:48:21 1494
原创 mapreduce操作avro的问题
问题:在运行mapreduce读取avro的record时:Found interface org.apache.hadoop.mapreduce.TaskAttemptContext, but class was expected at org.apache.avro.mapreduce.AvroKeyInputFormat.createRecordReader 原因:avr
2016-12-30 13:48:16 695
原创 Android studio 快捷键
查询方法help-tip of the day 打开一个类 Ctrl+N 打开一个文件 Ctrl+shift+N 自动完成代码 Ctrl+空格 查询变量或方法使用地方 Alt+f7 查询光标处变量或方法的文档 Ctrl+Q 转到定义 Ctrl+鼠标左键 改名 shift+F6 实现接口方法 Ctrl+i ove
2016-12-30 13:48:08 330
原创 Android Studio消除SDK更新时出现错误及解决
消除SDK更新时,有可能会出现这样的错误:Download interrupted: hostname in certificate didn't match: <dl-ssl.google.com> != <www.google.com>Download interrupted: Connection to https://dl-ssl.google.com ref...
2016-12-30 13:48:06 983
原创 Oracle数据库一些操作
创建sequence序列create sequence TELLER. LOGIN_HISTORY_SEQminvalue 1nomaxvaluestart with 1increment by 1cache 20nocycle; 创建插入数据的触发器create or replace trigger "trigger1"before insert
2016-12-30 13:47:56 327
原创 中文新闻文本分类
http://www.cnblogs.com/CherishFX/p/4005336.html 下载搜狗新闻语料库 1. 下载ictclas4j 后面的附件中,我有放上ictclas4j的源码包ictclas4j.zip2. 在Eclipse中新建项目并进行相关配置 首先把 ictclas4j解压缩,然后把 Data文件夹整个拷贝到 Eclipse项目的文
2016-12-30 13:47:51 4124
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人