- 博客(9)
- 资源 (13)
- 收藏
- 关注
原创 DBInputformat 理解
Mapreduce 从传统数据库 oracle mysql 等等读取数据到hdfs hive 等分布式存储系统在业务中是很常见,除了自己写自定义的inputformat格式,hadoop为我们提供了 DBInputFormat类,这个类原理很简单,getInputSplits函数为我们提供了如何来切分oracle或者mysql中的源数据, 分散到N个 MapTask当中去publi
2015-01-27 22:05:01 1155
原创 hive 使用本地模式
0.7版本后Hive开始支持任务执行选择本地模式(local mode)。大多数的Hadoop job是需要hadoop提供的完整的可扩展性来处理大数据的。不过,有时hive的输入数据量是非常小的。在这种情况下,为查询出发执行任务的时间消耗可能会比实际job的执行时间要多的多。对于大多数这种情况,hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集,执行时间会明显被缩短。
2015-01-27 17:38:55 2765
原创 hive 的配置项说明
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默
2015-01-27 17:25:05 1000
原创 Hive 配置详细 说明
hive的配置:hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置;hive.exec.script.wrapper:hive调用脚本时的包装器,默认是null,如果设置为python的话,那么在做脚本调用操作时语句会变为python ,null的话就是直接执行<script c
2015-01-23 17:22:26 1096 2
原创 hbase 系统 hbase-site.xml 配置说明
hbase.rpc.engine org.apache.hadoop.hbase.ipc.WritableRpcEngine hbase.hregion.max.filesize 10737418240 hbase.rootdir hdfs://hadoop01:8020/apps/
2015-01-20 17:28:44 6991
原创 hadoop-2.2.* hdfs-site.xml 配置说明
dfs.cluster.administrators hdfs dfs.block.access.token.enable true dfs.datanode.failed.volumes.tolerated 0 dfs.repl
2015-01-20 17:27:01 6297
原创 Hadoop-2.2.* 平台 mapred-site文件配置说明
mapreduce.task.timeout 600000 mapreduce.cluster.local.dir /hadoop/mapred( map 输出数据)的位置,dfs.data.dir 决定存储 HDFS 数据的位置。 --> mapreduce.reduce.input.
2015-01-20 17:25:16 1811
原创 关于Maptask任务单线程与多线程执行器解读
相比Mpareduce 老版本的API, 新版本的API 在maptask执行map任务的接口设计上有比较大的改动。 在老版的API中, MapRunner的run函数中:public void run(RecordReader input, OutputCollector output, Reporter reporter) throws IOException
2015-01-07 14:55:49 1288
原创 基于TextRank的中文摘要抽取算法(一)
BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the query terms within a docum
2015-01-03 13:42:32 7111 1
text-classification-cnn-rnn.rar
2020-07-09
内存中引用与指针之间的使用与区别
2009-09-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人