自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

PURSUE ONE PIECE

学历代表过去,财力代表现在,学习力代表将来,所见所闻改变一生,不知不觉断送一生。

  • 博客(8)
  • 资源 (21)
  • 收藏
  • 关注

原创 数据挖掘笔记-聚类-KMeans-文档聚类

本篇主要是根据K算法实现文档集的聚类。首先是要将需要聚类的文档进行向量化处理,这里采用的是TFIDF值来表示。文档之间的距离选用的是余弦距离,后面步骤没什么变化。DBSCAN算法聚类完成之后发现结果不是很理想,于是又加入了一些特征选择算法,达到降维的目的,结果还是比较理想的。其中开方检验的效果最好。

2014-08-28 14:58:01 1355

原创 数据挖掘笔记-聚类-DBSCAN-文档聚类

本篇主要是根据DBSCAN算法实现文档集的聚类。首先是要将需要聚类的文档进行向量化处理,这里采用的是TFIDF值来表示。文档之间的距离选用的是余弦距离,后面步骤没什么变化。DBSCAN算法聚类完成之后发现结果不是很理想,后面发现将数据降维后,结果还是比较理想的。代码托管:https://github.com/fighting-one-piece/repository-datamining.git。DBSCAN算法原理可以参考。java实现代码如下。

2014-08-21 17:22:48 2136

原创 数据挖掘笔记-分类-贝叶斯-原理与简单实现

按这些术语,Bayes定理可表述为:后验概率 = (相似度*先验概率)/标准化常量,也就是說,后验概率与先验概率和相似度的乘积成正比。类条件概率P(tk|c) = (类c下单词tk在各个文档中出现过的次数之和 + 1) / (类c下单词总数 + 训练样本中不重复特征词总数)根据朴素贝叶斯公式,每个测试样例属于某个类别的概率 = 所有测试样例包含特征词类条件概率P(tk|c)之积 * 先验概率P(c)类条件概率P(tk|c) = (类c下包含单词tk的文件数 + 1) / (类c下文件总数+2)

2014-08-19 23:41:26 1386

转载 数据挖掘笔记-特征选择-期望交叉熵

期望交叉熵也称为KL距离,反映的是文本类别的概率分布和在出现了某个特征的条件下文本类别的概率分布之间的距离,具体公式表示如下其中, P(t)表示特征t在文本中出现的概率, P(ci)表示ci类文本在文本集中出现的概率, P(ci|t)表示文本包含特征t时属于类别c的概率,|c|表示类别总数。如果特征t和类别强相关,即P(ci|t)大,并且相应的P(ci)又比较小,则说明特征t对分类

2014-08-14 18:22:26 7884

原创 HBase学习笔记-聚合函数

利用HBase的coprocessor特性实现聚合函数,添加coprocessor方式有两种1、修改hbase-site.xml,添加如下内容property> name>hbase.coprocessor.region.classesname> value>org.apache.hadoop.hbase.coprocessor.Aggregat

2014-08-13 18:46:54 12050 2

原创 数据挖掘笔记-特征选择-遗传算法

基于遗传策略的特征选取遗传算法通常实现方式为一种计算机模拟。对于一个最优化问题,一定数量的候选解(称为个体)的抽象表示(称为染色体)的种群向更好的解进化。传统上,解用二进制表示(即0和1的串),但也可以用其他表示方法。进化从完全随机个体的种群开始,之后一代一代发生。在每一代中,整个种群的适应度被评价,从当前种群中随机地选择多个个体(基于它们的适应度),通过自然选择和突变产生新的生命种群,该种群...

2014-08-13 13:11:13 12455 3

转载 数据挖掘笔记-特征选择-整体汇总

文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距

2014-08-08 17:06:37 8741

原创 Spark学习笔记-HBase操作

Scala版本操作HBaseJava版本操作HBase

2014-08-08 12:57:10 12408 20

多级层次行政区划相关的文件

行政区划相关文件,可以用于https://blog.csdn.net/fighting_one_piece/article/details/93361397这篇文章

2019-09-27

Sqoop-1.4.6 支持多分隔符

Sqoop的1.4.6版本修改部分代码,使--fields-terminated-by支持多分隔符

2017-12-16

企业数据架构及应用

企业数据架构的演发 数据仓库 数据总线及主数据 数据挖掘 数据处理参考架构回顼

2016-03-23

Spark快速数据处理

Spark快速数据处理 Spark Shell 快速开发原型 Spark RDD 交互多种方式 Spark SQL Spark 调优

2016-03-23

winutils.exe hadoop.dll

Hadoop在windows环境下开发所需要的winutils.exe hadoop.dll,所在位置为$HADOOP_HOME/bin

2014-10-18

数据挖掘:概念与技术(原书第3版).pdf

数据挖掘概念与技术(原书第3版).pdf 数据挖掘相关概念与技术

2014-04-10

jbpm4.4_ssh2.rar

jbpm 4.4 整合 struts2 spring hibernate 开发

2013-12-01

flash_builder_4_keygen.rar

flex 开发工具 flash_builder_4_keygen.rar

2013-12-01

hadoop-client-2.2.0.jar

hadoop-client-2.2.0.jar

2013-12-01

jsp分页技术jsp分页技术jsp分页技术jsp分页技术

jsp分页技术jsp分页技术jsp分页技术jsp分页技术jsp分页技术jsp分页技术jsp分页技术jsp分页技术

2010-09-23

java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949

java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949

2010-09-23

eclipse快捷键eclipse快捷键eclipse快捷键

eclipse快捷键eclipse快捷键eclipse快捷键eclipse快捷键eclipse快捷键eclipse快捷键

2010-09-23

[Effective.Enterprise.Java.中文版].Effective.Enterprise.Java.Chinese.eBook

[Effective.Enterprise.Java.中文版].Effective.Enterprise.Java.Chinese.eBook

2010-09-22

javascript王者归来

javascript王者归来,一本不错的书。。。。。。。。。。

2010-09-22

学习JAVA的视频网站资料

学习JAVA的视频网站资料,可以让你更加轻松的学习JAVA

2010-09-22

Android开发教程

Android开发教程,可以帮助你学习,成为你的助手

2010-09-22

JAVAJSP的聊天室Java源码

这里面是关于JAVAJSP的聊天室Java源码!相信对很多人是比较有用的!大家可以参考下!

2009-05-29

struts2的rar 下载

这是有关struts2的相关文档资料!希望对你的学习有所帮助!

2009-04-25

struts2v3.0

这是关于struts2的有关学习资料!希望可以对你有所帮助!

2009-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除