- 博客(5)
- 资源 (13)
- 收藏
- 关注
原创 KNN算法mapreduce实现
KNN算法Mapreduce实现目录KNN算法Mapreduce实现算法简介:mapreduce编程框架:具体实现过程:结果与分析算法简介:邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思...
2019-01-12 15:40:21 3650 2
原创 Mapreduce实现大数据集共现矩阵问题
目录相关知识简介共现矩阵的应用Mapreduce解决思路实现细节代码详解对于小文件的处理对于大文件的处理结果与分析相关知识简介共现矩阵的应用共现矩阵是许多语言模型中常用的技术之一,其主要应用于主题发现和解决词向量之间的相近关系的表示。假设现在有语料:“我爱吃西瓜” 和 “我喜欢吃西瓜” 分词得到 “我 爱 吃 西瓜” 、“我...
2019-06-17 08:36:21 905 1
原创 流数据处理Flume+Kafka的初步实现
目录实验目的实验内容实验过程Flume+kafka->storm(实时数据的处理结构)配置storm和zookeeper启动系统在eclipse中运行拓扑 实验目的 通过虚拟机配置Flume及Kafka,掌握Storm获得实际数据源的配置方法。通过虚拟机配置Kafka及编写kafkaSpout,掌握Storm获得实际数据源的配置方法。...
2019-06-14 08:36:46 555
原创 自动更新中科院的NLPIR/ICTCLAS分词系统证书
解决中科院的NLPIR/ICTCLAS分词系统证书过期问题问题描述:在使用中科院的NLPIR/ICTCLAS2016分词系统时时常会出现Cannot open Configure file 之类的问题,这是因为这个库将非商用期限设置为1个月,到期了就需要下载新的License。那么每次去github下载会非常麻烦,所以可以在使用这个工具之前,使用java自动检测并更新License呢...
2019-01-15 22:14:49 899
原创 nagios集成ganglia数据错误
错误提示:CHECKGANGLIA UNKNOWN: Error while getting value "Host/value not found"求大神指点
2017-12-31 17:42:20 321 2
storm流数据处理开发应用实战(linux实验环境,storm搭建完毕后的开发)
2019-06-20
mongodb高可用完全分布集群搭建
2018-09-12
hadoop mapreduce编程实战
2018-09-12
hadoop开发环境搭建
2018-09-12
hadoop完全分布式集群搭建
2018-09-12
flume+kafka+storm最完整讲解
2018-09-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人