数据挖掘
11宁静致远
既然选择了远方,便只顾风雨兼程
展开
-
HBase性能优化常用
1.1、高可用在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果Hmaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 Hmaster 的高可用配置。1)、关闭 HBase 集群(如果没有开启则跳过此步)bin/stop-hbase....原创 2019-10-14 12:54:37 · 160 阅读 · 0 评论 -
Spark on Yarn作业运行架构原理解析
1 、Client模式说明如下:Spark Yarn Client向YARN的ResourceManager申请启动Application Master。同时在SparkContent初始化中将创建DAGScheduler和TASKScheduler等,由于我们选择的是Yarn-Client模式,程序会选择YarnClientClusterScheduler和YarnClientSch...转载 2019-08-28 17:33:40 · 181 阅读 · 0 评论 -
mysql 行列相互转换
一、行转列即将原本同一列下多行的不同内容作为多个字段,输出对应内容。建表语句DROP TABLE IF EXISTS tb_score;CREATE TABLE tb_score( id INT(11) NOT NULL auto_increment, userid VARCHAR(20) NOT NULL COMMENT '用户id', subject ...转载 2019-08-15 19:56:40 · 166 阅读 · 0 评论 -
HBase启动出现org.apache.hadoop.hbase.TableExistsException: hbase:namespace错误
今天在启动HBase的时候莫名的HMaster启动不起来,查看日志后发现这个错误:2018-09-06 23:05:49,385 FATAL [master:linux201:60000] master.HMaster: Unhandled exception. Starting shutdown.org.apache.hadoop.hbase.TableExistsException: h...原创 2018-09-07 00:01:58 · 3691 阅读 · 0 评论 -
Scala学习笔记(三)
这里开始学习scala的数据结构1.1 数据结构特点Scala同时支持可变集合和不可变集合,不可变集合从不可变,可以安全的并发访问。两个主要的包:不可变集合:scala.collection.immutable可变集合: scala.collection.mutableScala优先采用不可变集合,对于几乎所有的集合类,Scala都同时提供了可变和不可变的版本。不可...原创 2018-08-16 23:01:49 · 302 阅读 · 0 评论 -
推荐算法之协同过滤CF
这两天看了一下几个比较重要也很常见的推荐算法,基于内容推荐和基于用户推荐,查阅了不少资料,还是想着将这些整理下来。Collaborative filtering (CF)算法试图找到一种通过用户行为为其提供一种具体建议的模型。他依据用户的行为数据,比如用户对读过书本的评分来判断他们对这本书的喜爱程度,关键问题在于如果有两个用户对其他物品有相似的评分那么其中一个用户对未评分的商品评分跟另一个用户...原创 2018-07-28 13:15:53 · 940 阅读 · 0 评论 -
朴素贝叶斯算法分析
这两天开始学习朴素贝叶斯算法,下面开始写一些自己查阅资料的总结1、分类问题概述 在介绍朴素贝叶斯算法前,我们先简单了解下分类问题,因为朴素贝叶斯是分类算法中的一种。定义:给定一个对象X,将其划分到预定义好的某一个类别Yi中---输入:X---输出:Y(取值于有限集合{y1,y2,......,yn})应用:人群,新闻分类,query分类,商品分类,网页分类,垃圾...原创 2018-07-29 18:39:00 · 1481 阅读 · 0 评论 -
jieba中文分词源码解析(一)
1、结巴的简单使用from __future__ import unicode_literalsimport syssys.path.append("/opt/python_workspace/jieba_demo/jieba-master/")import jiebaimport jieba.possegimport jieba.analyseprint('='*40)p...原创 2018-07-19 23:04:57 · 4089 阅读 · 0 评论 -
jieba中文分词学习笔记一
1、中文分词 在介绍结巴中文分词前,先简单介绍一下中文分词。中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。 最常见的分词算法可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法基于字符串匹配的分词方法:这种方法又叫做机械分...原创 2018-07-17 19:07:40 · 14042 阅读 · 0 评论 -
TF-IDF原理及使用
一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就是...原创 2018-07-09 00:22:57 · 4295 阅读 · 0 评论