自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

fansy1990的专栏

一日一积累

  • 博客(287)
  • 资源 (60)
  • 收藏
  • 关注

翻译 Spark SQL: Relational Data Processing in Spark

Spark SQL: Relational Data Processing in SparkSpark SQL : Spark中关系型处理模块说明: 类似这样的说明并非是原作者的内容翻译,而是本篇翻译作者的理解(可以理解为批准),所以难免有误,特注!当然翻译也可能有误!DateContents2019.03.12First Edition2019.04....

2019-04-07 09:44:56 2483 2

翻译 Coursera TensorFlow 基础课程-week4

Using Real-world Images参考:Ubuntu 16 安装TensorFlow及Jupyter notebook 安装TensorFlow。本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning仅供学习、交流等非盈利性质...

2019-03-23 18:05:37 1795 2

翻译 Coursera TensorFlow 基础课程-week3

Enhancing Vision with Convolutional Neural Networks参考:Ubuntu 16 安装TensorFlow及Jupyter notebook 安装TensorFlow。本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and D...

2019-03-20 23:33:49 965

翻译 Coursera TensorFlow 基础课程-week2

TensorFlow入门课程本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning

2019-03-19 23:24:12 861

翻译 Coursera TensorFlow 基础课程-week1

A New Programming Paradigm参考:Ubuntu 16 安装TensorFlow及Jupyter notebook 安装TensorFlow。本篇博客翻译来自 Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning仅供学习、交流等非盈...

2019-03-18 22:37:53 864

翻译 Spark读取Hive on Tez任务问题

Spark读取Hive on Tez任务问题参考 Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found出现的问题后续,由于HDP集群调整Hive引擎为Tez后,出现的问题。具体问题如下:19/03/18 10:40:16 INFO client.TezClient: Session mode. Star...

2019-03-18 11:19:56 1365

原创 Ubuntu 16 安装TensorFlow及Jupyter notebook

Ubuntu 16 安装TensorFlow及Jupyter notebook文章目录Ubuntu 16 安装TensorFlow及Jupyter notebook1. 软件版本2. 安装过程3. 测试本文主要讲述Windows上VMware虚拟机中Ubuntu16.04(最小化安装版,没有安装界面环境) 安装TensorFlow及Jupyter notebook的过程1. 软件版本...

2019-03-12 14:49:19 563

原创 Spark ALS recommendForAll源码解析实战之Spark1.x vs Spark2.x

文章目录Spark ALS recommendForAll源码解析实战1. 软件版本:2. 本文要解决的问题3. 源码分析实战3.1 Spark2.2.2 ALS recommendForAll 实战分析1. 首先给出其核心实现源码:2. blockify函数3. cartesian flatMap的优势4. flatMap的处理逻辑3.2 Spark1.6.3 ALS recommendForA...

2019-03-04 21:17:00 1197 1

原创 Spark ALS应用BLAS加速

文章目录Spark ALS应用BLAS加速1. 环境2. 问题引入3. 参考:4. 思路:4.1 简单测试:4.2 使用Native BLAS需要添加的Jar包方式1:在Intellij IDEA 中添加依赖找到方式2: 自行指定参数编译Spark源码4.3 使用新编译的Spark测试是否加载Native BLAS5. 修改官网提供的安装包,使其加载BLAS5.1 使用 --jars 参数5.2 ...

2019-02-27 23:16:49 2072

原创 Spark Shell 启动报NullPointerException(包含getZipEntry)

文章目录Spark Shell 启动NullPointerException提示getZipEntry1. 软件版本:2. 问题描述:3. 问题解决思路4. 后续Spark Shell 启动NullPointerException提示getZipEntry1. 软件版本:软件版本CDHCDH-5.7.3-1.cdh5.7.3.p0.5SparkStandalon...

2019-02-18 16:36:14 1230

原创 Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found

Class org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not foundClass org.datanucleus.api.jdo.JDOPersistenceManagerFactory was not found1. 思路第一步2. 新问题及解决Class org.datanucleus.api.jdo.JDOPersi...

2019-02-14 15:32:32 2530 1

原创 Spark 延迟30秒

Spark延迟30秒Spark延迟30秒1. 环境/版本/测试代码1.1 使用软件版本:1.2 集群部署1.3 测试代码2. 时间线3. 问题重述及分析Spark延迟30秒问题引出:问题来源于一次小的测试,在进行一个常规的读取Hive数据,并使用Spakr MLlib中的Describe进行基本的表统计时,发现Executor的任务发起到任务实际执行相差30秒左右,故此引出本篇博客。1. 环...

2018-12-26 18:09:33 2122

原创 Spark 常用编程技巧

Spark 常用编程技巧Spark Version : 2.2.01. 基础篇1.1 Scala 篇求均值描述: 求一个Double类型的均值,含有NaN类型(去掉NaN后求均值);scala> val data = Array(1,2,3.0)data: Array[Double] = Array(1.0, 2.0, 3.0)scala> def sum_num...

2018-10-13 12:56:31 2047 2

原创 Oozie4.3.1各种Action及综合实例

Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用(二) 如果没有编译好Oozie,并部署到集群,请参考:Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用(一)Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用(二)1. 准备工作2. Hive...

2018-08-10 14:48:49 1255

原创 Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用(一)

Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用(一)Build Oozie4.3.1 on Hadoop3.X及Hadoop生态圈Action调用(一)1. 需求:2. 前期预研:3. 前期准备4. 导入工程及编译修改4.1 修改为Hadoop34.2 加入Hadoop-common的依赖4.3 修改类4.4 修改主pom.x...

2018-08-07 16:38:09 4182 1

原创 Spark DataFrame vector 类型存储到Hive表

Spark DataFrame vector 类型存储到Hive表Spark DataFrame vector 类型存储到Hive表软件版本场景描述问题的迂回解决方法示例1. 软件版本 软件 版本 Spark 1.6.0 Hive 1.2.12. 场景描述在使用Spark时,有时需要存储DataFram...

2018-02-24 10:20:44 3940

原创 Spark ClassNotFoundException $$anonfun$2

Spark ClassNotFoundException $$anonfun$21. 软件环境: 软件 版本 Spark 原生1.6.0 Hadoop 原生2.6.52. 应用场景&问题描述使用Java Web提交任务到Spark Standalone集群中运行任务,运行任务的过程中,指定主类,比如a.b.c.Test, 那么主类

2018-01-25 11:05:15 1788 1

原创 SparkSQL read Elasticsearch ClassNotFoundException

环境 软件 版本 Elasticsearch 2.3.3 spark cdh-1.6.0 idea 2016问题描述:现在有一个Elasticsearch集群,需要使用SparkSQL直接连接进行读取,参考Elasticsearch官网代码,直接编写下面的程序进行读取(在Windows上编写程序,提交到远程Spark Standalone集群):public clas

2017-11-28 11:05:19 2366

原创 Java Web提交任务到Spark Standalone集群并监控

Java Web提交任务到Spark Standalone集群并监控环境工程下载路径Spark任务提交流程问题及问题解决后记Java Web提交任务到Spark Standalone集群并监控1. 环境 软件 版本 备注 IDEA 14.1.5 JDK 1.8 Spark 1.6.0 工程maven引用 Spark cdh5.7.3

2017-11-16 16:29:21 6106 13

原创 TensorFlowOnSpark stuck

问题描述:在使用TensorFlowOnSpark做测试的时候,发现任务,老是卡着并没有实际的运行。解决方法:1. 由于我使用的是自编译的TensorFlow,当时编译的时候有一个enable HDFS,默认是false,所以再次编译了一遍,把对应的HDFS enable设置为了true;2. 没有严格参考官网:   官网上面在使用spark-submit提交的时候,添加了--conf参数,而我以

2017-10-31 13:39:38 1015

原创 Centos6安装TensorFlow及TensorFlowOnSpark

1. 需求描述在Centos6系统上安装Hadoop、Spark集群,并使用TensorFlowOnSpark的 YARN运行模式下执行TensorFlow的代码。(最好可以在不联网的集群中进行配置并运行)2. 系统环境(拓扑)操作系统:Centos6.5 Final ; Hadoop:2.7.4 ; Spark:1.5.1-Hadoop2.6; TensorFlow 1.3.0;TensorFl

2017-10-27 23:51:28 1928

原创 Spark应用HanLP对中文语料进行文本挖掘--聚类

软件:IDEA2014、Maven、HanLP、JDK;用到的知识:HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;用到的数据集:http://www.threedweb.cn/thread-1288-1-1.html(不需要下载,已经包含在工程里面);工程下载:https://github.com/fansy1990/hanlp-test 。

2017-08-25 17:41:43 7820 7

原创 Matlab计算字符串相似度

运行环境:Matlab单纯的计算字符串的相似度,并没有计算词性,如TF-IDF之类的;代码如下:%计算字符串相似度%一个source字符串通过插入、删除、替换而变成target字符串的操作次数越少,则两个字符串越相近。function strsim = mystrsim(target,source) %X为字符串矩阵len1=length(source);len2=length(targ

2017-08-22 09:26:58 4566 4

转载 CDH HiveServer2异常退出

本篇参考:http://blog.csdn.net/gklifg/article/details/50418109、http://blog.csdn.net/levy_cui/article/details/53992402、http://blog.csdn.net/lulynn/article/details/46455097。在使用CDH集群的过程中,出现HiveServer2刚启动没多久,客

2017-07-10 14:09:24 5602 1

原创 Java连接Spark Standalone集群

软件环境:spark-1.6.3-bin-hadoop2.6、hadoop-2.6.4、jdk1.7.0_67、IDEA14.1.5 ;Hadoop集群采用伪分布式安装,运行过程中只启动HDFS;Spark只启动一个Worker;使用虚拟机搭建Hadoop、Spark集群;Idea直接安装在Win10上;192.168.128.128是虚拟机ip;本机ip是:192.168.0.183;Java连

2017-07-06 14:13:30 7893

原创 Hive性能调优

软件环境:Hive1.2.1 /Hadoop2.6.4 ;直接使用Hive Cli模式运行;1. 设置执行引擎set hive.execution.engine=mr;set hive.execution.engine=spark;如果设置执行引擎为mr,那么就会调用Hadoop的maprecude来运行需要执行job的程序;如果设置执行引擎为spark,那么就会调用spark来执行任务。有条件

2017-07-01 17:51:20 18916 1

原创 Spark SQL filter not contains

软件环境:CDH5.8.0;问题:在使用Spark SQL 读取Hive进行操作的时候,需要使用不包含,如下:(在Spark SQL中有contains,like,rlike函数)在Hive中有表id_url ,内容如下:+------------+-----------------------------------+--+| id_url.id | id_url.ur

2017-05-23 21:21:47 9621

原创 Spark DecisionTreeModel print

软件版本:   Spark:1.6.1 ; 问题1:在进行Spark DecisionTree建模时(做分类),可以打印决策树。当然,使用该模型的toDebugString 可以打印类似下面的字符串,例如:DecisionTreeModel classifier of depth 7 with 45 nodes If (feature 22 <= 114.2) If (feature 2

2017-04-26 16:17:37 1648

原创 Tomcat Sqoop import异常及其解决方法

软件版本:Sqoop:1.4.6-cdh5.7.3,tomcat:7,JDK:1.7,Intellij Idea 2014 , Hadoop集群:CDH5.7.3;mysql:5.6;问题描述:在使用Sqoop的API操作数据从Mysql表导入到HDFS的时候,如果直接使用Java程序,那么是可以调用程序并运行成功的;但是,启动Tomcat调用,则会失败。前备知识:1. 使用Java API操作S

2017-03-17 21:19:59 1767

原创 Spark MLlib算法调用展示平台及其实现过程

1. 软件版本:IDE:Intellij IDEA 14,Java:1.7,Scala:2.10.6;Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hadoop:hadoop2.6.0-cdh5.8.0;(使用的是CDH提供的虚拟机)2. 工程下载及部署:Scala封装Spark算法工程:https://github

2017-03-17 12:57:36 8953 11

翻译 Spark On YARN内存和CPU分配

本篇博客参考:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ 软件版本:CDH:5.7.2,JDK:1.7;问题描述:在使用Spark On YARN时(无论是Client模式或者是Cluster模式,当然下面会有这种模式的对比区别),可以添加诸如:--executor-memory

2017-01-10 17:17:15 21481 2

原创 Windows Spark On YARN 提交任务到CDH集群

软件版本:IDE:Intellij IDEA 14,Java:1.7,Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hadoop:hadoop2.6.0-cdh5.8.0;部署环境:1. 在Windows10 上启动IDEA ,并启动Tomcat,在Tomcat中使用Spark On YARN的方式调用封装好的Spa

2017-01-05 18:20:10 6599

原创 MAC Spark no snappyjava in java.library.path

软件版本:Mac:10.12.1,Spark:1.6.0-cdh5.7.3,JDK:1.7.0_79 ; IDEA:14;问题描述:在Mac上运行Spark程序时(采用local 生成SparkContext的方式,具体参考:https://github.com/fansy1990/Spark_MLlib_Algorithm_1.6.0/blob/master/src/test/scala/com

2016-12-31 11:37:35 2991 3

原创 Oozie Spark on YARN requirement failed

软件环境:CDH:5.7.3;Oozie:4.1.0-CDH5.7.3 ; Spark:1.6.0-cdh5.7.3-hadoop2.6.0-cdh5.7.3 ; Hadoop:hadoop2.6.0-cdh5.7.3(HDFS 采用HA方式);问题描述:在使用CDH5.7.3版本的时候,发起一个Oozie工作流,该工作流使用Spark On YARN的方式提交一个Spark程序,但是在Oozie

2016-12-24 10:37:02 4460 1

原创 Spark TopK问题解法

软件版本及平台:CDH5.8、四子节点(cpu:2核、内存:4G)、JDK:1.7、IDEA14 、 Spark:1.6.0-cdh5.7.3;代码下载:问题描述:现有用户项目评分数据,其格式如下所示:u1,item1,0.0913375062480507u2,item1,0.4061823571029518u3,item1,0.021727289053235843u4,item1,0.24

2016-12-15 22:44:50 3729

原创 Spark读写Hive添加PMML支持

软件版本:CDH:5.8.0;Hadoop:2.6.0 ; Spark:1.6.0; Hive:1.1.0;JDK:1.7 ; SDK:2.10.6(Scala)目标:在Spark加载PMML文件处理数据(参考:http://blog.csdn.net/fansy1990/article/details/53293024)及Spark读写Hive(http://blog.csdn.net/fans

2016-12-03 15:49:45 3816

原创 Spark读写Hive

环境:CDH5.8,Spark:1.6.0;Hadoop:2.6.0,Intellij IDEA14 ,jdk1.8,sdk:2.10.6 ,maven:3.3.3;工程下载地址:1. Spark读取HiveSpark读取Hive,使用的是HiveContext,第一步使用sc生成一个HiveContext,然后其他操作就是在HiveContext里面操作了;比如使用HiveContext的tab

2016-11-29 22:42:00 13594

原创 mac未能正确推出移动硬盘而读取不了

问题:移动硬盘格式是exfat的,在mac中未能正确推出移动硬盘,然后就被直接拔掉了;插在windows上,显示未能访问;直接重启windows,就可以访问该移动硬盘了,但是推出后,再次插入到mac上还是读取不了;修复方法:1. 插入到windows上,比如读取到的是I盘符;2. 打开dos窗口,运行命令: chkdsk I: /f等待修复完成:这时,再次退出,然后插入到mac上,即可看到该移动硬

2016-11-28 22:48:36 31472 2

原创 Spark加载PMML进行预测

软件版本:CDH:5.8.0 , CDH-hadoop :2.6.0 ; CDH-spark :1.6.0 目标:使用Spark 加载PMML文件到模型,并使用Spark平台进行预测(这里测试使用的是Spark on YARN的方式)。具体小目标:1. 参考https://github.com/jpmml/jpmml-spark 实现,能运行简单例子;2. 直接读取HDFS上面的输入数据文件,使用

2016-11-25 22:28:05 19227 2

原创 MapReduce实现线性回归

1. 软件版本:Hadoop2.6.0(IDEA中源码编译使用CDH5.7.3,对应Hadoop2.6.0),集群使用原生Hadoop2.6.4,JDK1.8,Intellij IDEA 14 。源码可以在https://github.com/fansy1990/linear_regression 下载。2. 实现思路:本博客实现的是一元一次线性方程,等于是最简单的线性方程了,采用的是Coures

2016-10-29 11:34:02 7180 6

Mahout案例实战 约会推荐

Mahout实战案例-约会推荐系统,详情参考博客《Mahout案例实战--Dating Recommender 系统》http://blog.csdn.net/fansy1990/article/details/44181459

2015-03-11

java web程序调用hadoop2.6

java web程序演示调用hadoop2.6运行集群MR程序示例;

2015-01-11

FP关联规则置信度

FP关联规则计算置信度的方法:参考Mahout FP算法相关相关源码。 只是单机版的实现,并没有MapReduce的代码,可以参考: http://blog.csdn.net/fansy1990/article/details/41279833 实现思路

2014-11-19

libimesti推荐系统

具体参考《Libimseti推荐系统》(http://blog.csdn.net/fansy1990/article/details/39692741) (1)修改Configuration目录中的db.properties中的数据库配置; (2)从http://www.occamslab.com/petricek/data/libimseticomplete.zip下载所需要的数据,解压后可以看到gender.dat 和ratings.dat文件; (3)启动工程,自动生成相关表; (4)在数据库中运行sql目录下sql,导入相关数据;

2014-09-30

nmon 和 nmon analyser工具

nmon 和nmon analyser 系统监控工具,具体使用可以参考http://blog.csdn.net/fansy1990/article/details/39520423

2014-09-24

easyui+spring+struts+hibernate 实例

Java Web Demo,前台使用easyUI控件、jQuery技术,后台使用Spring、Struts、Hibernate技术。具体运行参考:http://blog.csdn.net/fansy1990/article/details/39319335

2014-09-16

MR Unit test需要的相关jar包

MR Unit test所需的jar包(不包含Hadoop环境jar包),适合Hadoop2,具体实例参考《hadoop编程小技巧(8)---Unit Testing (单元测试)》

2014-07-29

Mahout贝叶斯分类不含标签数据

Mahout 贝叶斯算法根据模型分类无标签数据,具体参考http://blog.csdn.net/fansy1990/article/details/37991447

2014-07-20

Mahout算法调用展示平台2.1-part3

第三部分 功能主要包括四个方面:集群配置、集群算法监控、Hadoop模块、Mahout模块。 详情参考《Mahout算法调用展示平台2.1》

2014-07-06

Mahout算法调用展示平台2.1-part2

第二部分 功能主要包括四个方面:集群配置、集群算法监控、Hadoop模块、Mahout模块。 详情参考《Mahout算法调用展示平台2.1》

2014-07-06

Mahout算法调用展示平台2.1

第一部分 功能主要包括四个方面:集群配置、集群算法监控、Hadoop模块、Mahout模块。 详情参考《Mahout算法调用展示平台2.1》

2014-07-06

cdh50beta part2

kettle 5.0.1 调用cdh5.0.0 shim 包

2014-05-05

cdh50beta shim 包

kettle5.0.1 使用cdh5.0.0 shim包

2014-05-05

mahout0.9 jar支持hadoop2

mahout0.9 的jar包,支持hadoop2,此为第二部分jar包。具体调用方式参考lz相关博客

2014-04-09

mahout0.9 jar包支持hadoop2

mahout0.9 的jar包,支持hadoop2(此为第一部分)

2014-04-09

mahout0.9源码(支持hadoop2)

mahout0.9的源码,支持hadoop2,需要自行使用mvn编译。mvn编译使用命令: mvn clean install -Dhadoop2 -Dhadoop.2.version=2.2.0 -DskipTests

2014-04-09

phoenix2.2

phoenix2.2操作hbase0.96

2014-04-04

phoenix2.2.2

phoenix 操作hbase0.96,(使用hadoop2)

2014-04-04

hadoop2 MR运行修改jar

windows使用java调用hadoop2需要修改的jar,具体可以参考博主博客

2014-04-03

hadoop左连接

hadoop左连接程序jar,可以直接运行。

2014-03-08

博客推荐系统源码

运行博客推荐程序需要注意的地方: 1. 打开mysql,增加blog数据库;修改src下面的jdbc.properties文件的用户名和密码; 2. 修改blog.xml(和Readme.txt同目录)的docBase为本地目录,放在tomcat的conf\Catalina\localhost目录下面; 3. 修改applicationContext.xml文件中的自动生成表的配置(hibernate.hbm2ddl.auto),第一次启动为create,后面改为update; 4. 启动服务器,运行test目录下面的DataGenerator.java、运行src/data目录下面的UserGenerate.java 即可插入test用户信息以及云平台信息(需要修改UserGenerate.java中云平台相关配置); 版本:Spring3+Struts2+Hibernate3+Hadoop1.0.4+Mahout0.7+Mysql5

2014-02-18

web平台调用hadoop集群2.0

web平台调用hadoop集群的升级版,要求所配置的hadoop集群需要把工程下面的所有class文件打包放入hadoop的lib目录下面。具体参考lz的blog介绍。

2014-01-03

hadoop启动时间写入文件

hadoop:1.0.4 修改JobTracker源码,把JobTracker启动时间写入文件/private/jobtracker/starttime (hdfs文件系统); 只需替换hadoop-core-1.0.4.jar文件,然后重启系统集群即可,启动后就可以在hdfs文件系统看到/private/jobtracker/starttime中有的启动时间。

2013-12-20

监控hadoop任务信息

hadoop:1.0.4,struct:2.3。 说明:hadoop云平台任务监控信息页面,仿效50030界面,提前获得10个未运行任务的id,然后显示这些id的信息;具体参考最新bolg。

2013-12-18

web 工程调用hadoop集群1.4

web 工程调用hadoop集群1.4版本,使用structs2框架,把WEB-INF/lib下面的hadoop-fz1.3.jar拷贝到hadoop集群的lib下面,然后就可以运行了,此版本暂时只支持text2vector、canopy算法。具体参考http://blog.csdn.net/fansy1990中相应blog。

2013-12-02

flex struts2文件上传

flex struts2 实现单文件、同名文件、多文件上传,具体分析参考blog相关内容。

2013-11-27

flex datagrid doubleclick 实例

flex datagrid 的doubleclick实例,选择一个行的数据,获得选择的数据其做一些其他操作,具体分析参考相关博客:http://blog.csdn.net/fansy1990

2013-11-22

flex dispatchEvent 实例工程

解压后,有两个flex工程:FlexServer1.1和FlexClient1.1,其中server是java的web工程,用于tomcat部署;client是flashBuilder的工程,主要是显示页面。具体原理参考相应blog。

2013-11-19

web 工程调用hadoop集群1.3

web 工程调用hadoop集群1.3版本,使用structs2框架,把WEB-INF/lib下面的hadoop-fz1.3.jar拷贝到hadoop集群的lib下面,然后就可以运行了,暂时只支持text2vector算法。具体参考http://blog.csdn.net/fansy1990中相应blog。

2013-11-17

flex 调用java

Flex通过RemoteObject调用java实例:flex传入参数以及接收java返回结果。 通过mysql数据库的分页来展现flex调用java的实例。工程一共有两个:一个是java web端的,一个是flex工程。详情参考对应博客。

2013-11-12

svd mahout算法

svd算法的工具类,直接调用出结果,调用及设置方式参考http://blog.csdn.net/fansy1990 <mahout源码分析之DistributedLanczosSolver(七)>

2013-10-31

读取HDFS序列化文件解析key、value可视化输出

ReadArbiKV是读取任务序列文件到一个map变量里面,可以启动调试模式进行变量查看; ReadAndWritePatterns是读取序列文件,并解析其key和value,然后可视化输出,所谓可视化输出是指不是乱码的输出,具体可以参考http://blog.csdn.net/fansy1990中《hadoop解析序列文件并可视化输出》

2013-10-25

bazel-0.5.4

bazel-0.5.4-dist.zip 下载,原官网下载有时会下载不了,可以在这个地方下载。

2017-11-13

TensorFlow1.3.0 on centos6.5

TensorFlow1.3.0 on centos6.5 ,编译的TensorFlow1.3.0代码,参考博客

2017-10-28

spark-yarn_2.10-1.6.0-cdh5.7.3.jar

Oozie Spark on YARN requirement failed 所需jar包:http://blog.csdn.net/fansy1990/article/details/53856608

2016-12-24

冠字号查询系统数据

基于HBase冠字号查询系统、数据,参考https://github.com/fansy1990/ssh_v3/releases

2016-06-04

hdp一键部署脚本

hdp一键部署脚本,打开one_key.sh参考HELP,修改hosts文件运行即可。具体参考lz博客《HDP一键配置》

2015-05-25

storm实时单词计数

K天熟悉Apache Storm (三)的示例代码,实时单词计数应用场景

2015-03-27

hotspot关联规则

hotspot关联规则的Java实现,参考weka的相关源码,可用于离散型和连续型数据处理,分析过程参考《HotSpot关联规则算法(2)-- 挖掘连续型和离散型数据》

2015-03-14

hotspot算法源码

HotSpot算法源码,参考weka上面的实现编写,目前只能处理离散型数据,具体参考博客《HotSpot关联规则算法(1)-- 挖掘离散型数据》

2015-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除