2016年07月_小爷毛毛（卓寿杰）

12月 11月 10月 09月 08月 07月 06月

原创安全知识&kerberos初识

问题一 kinit alice beeline -u “jdbc:hive2://baogang2:10000/default;principal=hive/baogang2@TDH” 请问这个beeline连接到inceptor中之后，当前用户是谁？principal=hive/baogang2@TDH指的又是什么？当前用户是baogang2principal=hive/

2016-07-31 18:05:47 2384

原创 Holodesk VS CarbonData

总概Holodesk应用场景增强在交互分析中Ad-hoc query的高效性支持流应用insert & update & deleteCarbonData应用场景支持 big scan & 少列结果支持在亚秒级响应主键查找支持大数据上涉及一个query中有许多过滤的interactive OLAP-style query, 并能以秒级响应支持包含全列的单条记录的快速抽取支持 HDFS

2016-07-24 20:31:57 2647

翻译 Apache CarbonData :一种为更加快速数据分析而生的新Hadoop文件版式

http://blog.csdn.net/u011239443/article/details/52015680github：https://github.com/apache/incubator-carbondata 参考：陈亮，华为:《Spark+CarbonData(New File Format For Faster Data Analysis)》 http://www.meetup.c

2016-07-24 19:35:30 7030

原创 Kafka初识

问题一写出增加Kafka的Partition命令bin/kafka-add-partitions.sh --topic test --partition 2 --zookeeper 192.168.197.170:2181,192.168.197.171:2181问题二列出配置Kafka删除日志的配置参数参数说明(解释) log.roll.hours =24*7 这

2016-07-24 18:10:47 685

原创 yarn初识

用自己的话表述YARN和MR之间的区别和联系YARN是一个资源管理和作业框架，MR是计算框架但。MR1中，JobTracker作为核心，管理集群中的每一台机器以及所有的job分配，需要很大的资源消耗，并存在单点故障。MR2以YARN作为资源和作业管理系统，把JobTracker所做的工作拆成两部分，一个是资源管理器ResourceManager，负责所有任务的资源管理和分配，一个是任务调度器A

2016-07-17 20:55:38 812

原创 Hbase初识

模块 hmaster、hregionserver、zookeeper、hregion、root表、meta表、hfile、hstore、memstore、blockcachehmaster 启动时HRegion的分配，以及负载均衡和修复时HRegion的重新分配。监控集群中所有HRegionServer的状态(通过Heartbeat和监听ZooKeeper中的状态)。创建、删除、修改Tab

2016-07-16 23:11:07 942

原创 HDFS safemode

问题一 HDFS在什么情况下会进入safemode？safemode是怎样一种工作模式？namenode所使用的存放editlog和fsimage的目录满了的时候（分区满，无空间）namenode 启动过程中（仅仅启动过程中），如果数据块汇报数量不够，就会在safemode中（不是副本数哦，为什么？副本数可以不满，因为可以启动了之后再复制满）手动进入（比如维护升级）。处于safemode的

2016-07-14 14:17:53 844

原创【Spark Mllib】决策树，随机森林——预测森林植被类型

决策树有训练分类模型的函数trainClassifier和回归模型的函数trainRegressor，这里我们使用trainClassifier。随机森林可以理解将数据集合分成n个子集，然后在每个子集上建立决策树，最后结果是n棵决策树的平均值。因为一共有7种类别，所以生成的是7*7的矩阵，aij 表示实际类别是i，而被预测类别是j的次数。我们可以将featureSubsetStrategy设置为auto，让算法自己来决定。相当于关于impurity，depth，bins的三层循环。但是，我们可以参阅下。

2016-07-08 11:09:33 7941

原创 Spark异常处理与调优（更新中～）

资源调优http://blog.csdn.net/u011239443/article/details/52127689内存Memory Tuning，Java对象会占用原始数据2~5倍甚至更多的空间。最好的检测对象内存消耗的办法就是创建RDD，然后放到cache里面去，然后在UI上面看storage的变化；当然也可以使用SizeEstimator来估算。使用-XX:+UseCom...

2016-07-04 20:54:22 11600

原创 Hadoop异常合集（更新中～）

java.io.FileNotFoundException: File file does notError LogException in thread "main" java.io.FileNotFoundException: File file:/root/tpcds/generator/target/lib/dsdgen.jar does not exist at org.apach

2016-07-04 20:43:15 4547 2

原创一句SQL，判断char列的值是否组成回文字符串

Table t has 2 columns: id INT; value CHAR(1); Column id starts from 0, increased by 1 each row Column value is a single character string Table t has at least 1 row String s is a palindrome when:

2016-07-02 22:41:32 979

SMP2020微博情绪分类技术评测数据集

SMP2020微博情绪分类技术评测数据集本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供，原始数据源于新浪微博，由微热点大数据研究院提供，数据集分为两部分。第一部分为通用微博数据集，该数据集内的微博内容是随机获取到微博内容，不针对特定的话题，覆盖的范围较广。第二部分为疫情微博数据集，该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博，其内容与新冠疫情相关。因此，本次评测训练集包含上述两类数据：通用微博训练数据和疫情微博训练数据，相对应的，测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。每条微博被标注为以下六个类别之一：neutral（无情绪）、happy（积极）、angry（愤怒）、sad（悲伤）、fear（恐惧）、surprise（惊奇）。通用微博训练数据集包括27,768条微博，验证集包含2,000条微博，测试数据集包含5,000条微博。疫情微博训练数据集包括8,606条微博，验证集包含2,000条微博，测试数据集包含3,000

2022-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人