自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(11)
  • 资源 (5)
  • 收藏
  • 关注

原创 安全知识&kerberos初识

问题一 kinit alice beeline -u “jdbc:hive2://baogang2:10000/default;principal=hive/baogang2@TDH” 请问这个beeline连接到inceptor中之后,当前用户是谁?principal=hive/baogang2@TDH指的又是什么?当前用户是baogang2principal=hive/

2016-07-31 18:05:47 2384

原创 Holodesk VS CarbonData

总概Holodesk应用场景增强在交互分析中Ad-hoc query的高效性支持流应用insert & update & deleteCarbonData应用场景支持 big scan & 少列结果支持在亚秒级响应主键查找支持大数据上涉及一个query中有许多过滤的interactive OLAP-style query, 并能以秒级响应支持包含全列的单条记录的快速抽取支持 HDFS

2016-07-24 20:31:57 2647

翻译 Apache CarbonData :一种为更加快速数据分析而生的新Hadoop文件版式

http://blog.csdn.net/u011239443/article/details/52015680github:https://github.com/apache/incubator-carbondata 参考: 陈亮,华为:《Spark+CarbonData(New File Format For Faster Data Analysis)》 http://www.meetup.c

2016-07-24 19:35:30 7030

原创 Kafka初识

问题一 写出增加Kafka的Partition命令bin/kafka-add-partitions.sh --topic test --partition 2 --zookeeper 192.168.197.170:2181,192.168.197.171:2181问题二 列出配置Kafka删除日志的配置参数 参数 说明(解释) log.roll.hours =24*7 这

2016-07-24 18:10:47 685

原创 yarn初识

用自己的话表述YARN和MR之间的区别和联系YARN是一个资源管理和作业框架,MR是计算框架 但。MR1中,JobTracker作为核心,管理集群中的每一台机器以及所有的job分配,需要很大的资源消耗,并存在单点故障。MR2以YARN作为资源和作业管理系统,把JobTracker所做的工作拆成两部分,一个是资源管理器ResourceManager,负责所有任务的资源管理和分配,一个是任务调度器A

2016-07-17 20:55:38 812

原创 Hbase初识

模块 hmaster、hregionserver、zookeeper、hregion、root表、meta表、hfile、hstore、memstore、blockcachehmaster 启动时HRegion的分配,以及负载均衡和修复时HRegion的重新分配。监控集群中所有HRegionServer的状态(通过Heartbeat和监听ZooKeeper中的状态)。创建、删除、修改Tab

2016-07-16 23:11:07 942

原创 HDFS safemode

问题一 HDFS在什么情况下会进入safemode?safemode是怎样一种工作模式?namenode所使用的存放editlog和fsimage的目录满了的时候(分区满,无空间)namenode 启动过程中(仅仅启动过程中),如果数据块汇报数量不够,就会在safemode中(不是副本数哦,为什么?副本数可以不满,因为可以启动了之后再复制满)手动进入(比如维护升级)。处于safemode的

2016-07-14 14:17:53 844

原创 【Spark Mllib】决策树,随机森林——预测森林植被类型

决策树有训练分类模型的函数trainClassifier和回归模型的函数trainRegressor,这里我们使用trainClassifier。随机森林可以理解将数据集合分成n个子集,然后在每个子集上建立决策树,最后结果是n棵决策树的平均值。因为一共有7种类别,所以生成的是7*7的矩阵,aij 表示实际类别是i,而被预测类别是j的次数。我们可以将featureSubsetStrategy设置为auto,让算法自己来决定。相当于关于impurity,depth,bins的三层循环。但是,我们可以参阅下。

2016-07-08 11:09:33 7941

原创 Spark异常处理与调优(更新中~)

资源调优http://blog.csdn.net/u011239443/article/details/52127689内存Memory Tuning,Java对象会占用原始数据2~5倍甚至更多的空间。最好的检测对象内存消耗的办法就是创建RDD,然后放到cache里面去,然后在UI上面看storage的变化;当然也可以使用SizeEstimator来估算。使用-XX:+UseCom...

2016-07-04 20:54:22 11600

原创 Hadoop异常合集(更新中~)

java.io.FileNotFoundException: File file does notError LogException in thread "main" java.io.FileNotFoundException: File file:/root/tpcds/generator/target/lib/dsdgen.jar does not exist at org.apach

2016-07-04 20:43:15 4547 2

原创 一句SQL,判断char列的值是否组成回文字符串

Table t has 2 columns: id INT; value CHAR(1); Column id starts from 0, increased by 1 each row Column value is a single character string Table t has at least 1 row String s is a palindrome when:

2016-07-02 22:41:32 979

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集 本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。     第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。     第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。     因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。     每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。     通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。     疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000

2022-12-29

jblas-1.2.4-SNAPSHOT

里MLlib库需要依赖[jblas线性代数库](http://jblas.org/),如果大家编译jblas的jar包有问题,可以获取。把jar包加到lib文件夹后,记得在spark-env.sh添加配置

2016-06-26

Spark机器学习文本处理数据集

为了说明概念,我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。

2016-06-20

Spark机器学习推荐模型数据集

我们将使用推荐引擎中使用的电影打分数据集,这个数据集主要分为三个部 分:第一个是电影打分的数据集(在u.data文件中), 第二个是用户数据(u.user),第三个是电影数据(u.item)。除此之外,我们从题材文件中获取了每个电影的题材(u.genre)。

2016-06-18

Spark机器学习回归模型数据集

为了阐述本章的一些概念,我们选择了bike sharing数据集做实验。这个数据集记录了bike sharing系统每小时自行车的出租次数。另外还包括日期、时间、天气、季节和节假日等相关信息。

2016-06-15

Spark机器学习分类模型的数据集

考虑到推荐模型中的 MovieLens 数据集和分类问题无关,本章将使用另外一个数据集。这个 数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂 存在,很快就不流行了)还是长久(长时间流行)。

2016-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除