- 博客(11)
- 资源 (5)
- 收藏
- 关注
原创 安全知识&kerberos初识
问题一 kinit alice beeline -u “jdbc:hive2://baogang2:10000/default;principal=hive/baogang2@TDH” 请问这个beeline连接到inceptor中之后,当前用户是谁?principal=hive/baogang2@TDH指的又是什么?当前用户是baogang2principal=hive/
2016-07-31 18:05:47 2384
原创 Holodesk VS CarbonData
总概Holodesk应用场景增强在交互分析中Ad-hoc query的高效性支持流应用insert & update & deleteCarbonData应用场景支持 big scan & 少列结果支持在亚秒级响应主键查找支持大数据上涉及一个query中有许多过滤的interactive OLAP-style query, 并能以秒级响应支持包含全列的单条记录的快速抽取支持 HDFS
2016-07-24 20:31:57 2647
翻译 Apache CarbonData :一种为更加快速数据分析而生的新Hadoop文件版式
http://blog.csdn.net/u011239443/article/details/52015680github:https://github.com/apache/incubator-carbondata 参考: 陈亮,华为:《Spark+CarbonData(New File Format For Faster Data Analysis)》 http://www.meetup.c
2016-07-24 19:35:30 7030
原创 Kafka初识
问题一 写出增加Kafka的Partition命令bin/kafka-add-partitions.sh --topic test --partition 2 --zookeeper 192.168.197.170:2181,192.168.197.171:2181问题二 列出配置Kafka删除日志的配置参数 参数 说明(解释) log.roll.hours =24*7 这
2016-07-24 18:10:47 685
原创 yarn初识
用自己的话表述YARN和MR之间的区别和联系YARN是一个资源管理和作业框架,MR是计算框架 但。MR1中,JobTracker作为核心,管理集群中的每一台机器以及所有的job分配,需要很大的资源消耗,并存在单点故障。MR2以YARN作为资源和作业管理系统,把JobTracker所做的工作拆成两部分,一个是资源管理器ResourceManager,负责所有任务的资源管理和分配,一个是任务调度器A
2016-07-17 20:55:38 812
原创 Hbase初识
模块 hmaster、hregionserver、zookeeper、hregion、root表、meta表、hfile、hstore、memstore、blockcachehmaster 启动时HRegion的分配,以及负载均衡和修复时HRegion的重新分配。监控集群中所有HRegionServer的状态(通过Heartbeat和监听ZooKeeper中的状态)。创建、删除、修改Tab
2016-07-16 23:11:07 942
原创 HDFS safemode
问题一 HDFS在什么情况下会进入safemode?safemode是怎样一种工作模式?namenode所使用的存放editlog和fsimage的目录满了的时候(分区满,无空间)namenode 启动过程中(仅仅启动过程中),如果数据块汇报数量不够,就会在safemode中(不是副本数哦,为什么?副本数可以不满,因为可以启动了之后再复制满)手动进入(比如维护升级)。处于safemode的
2016-07-14 14:17:53 844
原创 【Spark Mllib】决策树,随机森林——预测森林植被类型
决策树有训练分类模型的函数trainClassifier和回归模型的函数trainRegressor,这里我们使用trainClassifier。随机森林可以理解将数据集合分成n个子集,然后在每个子集上建立决策树,最后结果是n棵决策树的平均值。因为一共有7种类别,所以生成的是7*7的矩阵,aij 表示实际类别是i,而被预测类别是j的次数。我们可以将featureSubsetStrategy设置为auto,让算法自己来决定。相当于关于impurity,depth,bins的三层循环。但是,我们可以参阅下。
2016-07-08 11:09:33 7941
原创 Spark异常处理与调优(更新中~)
资源调优http://blog.csdn.net/u011239443/article/details/52127689内存Memory Tuning,Java对象会占用原始数据2~5倍甚至更多的空间。最好的检测对象内存消耗的办法就是创建RDD,然后放到cache里面去,然后在UI上面看storage的变化;当然也可以使用SizeEstimator来估算。使用-XX:+UseCom...
2016-07-04 20:54:22 11600
原创 Hadoop异常合集(更新中~)
java.io.FileNotFoundException: File file does notError LogException in thread "main" java.io.FileNotFoundException: File file:/root/tpcds/generator/target/lib/dsdgen.jar does not exist at org.apach
2016-07-04 20:43:15 4547 2
原创 一句SQL,判断char列的值是否组成回文字符串
Table t has 2 columns: id INT; value CHAR(1); Column id starts from 0, increased by 1 each row Column value is a single character string Table t has at least 1 row String s is a palindrome when:
2016-07-02 22:41:32 979
SMP2020微博情绪分类技术评测数据集
2022-12-29
jblas-1.2.4-SNAPSHOT
2016-06-26
Spark机器学习文本处理数据集
2016-06-20
Spark机器学习推荐模型数据集
2016-06-18
Spark机器学习回归模型数据集
2016-06-15
Spark机器学习分类模型的数据集
2016-06-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人