大数据
passer199101
这个作者很懒,什么都没留下…
展开
-
zeppelin mysql配置
http://bigdatums.net/2017/03/02/connecting-apache-zeppelin-to-mysql/原创 2017-07-08 14:29:31 · 876 阅读 · 0 评论 -
Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientCo
Spark2.0 yarn方式启动报错 https://my.oschina.net/xiaozhublog/blog/737902原创 2017-02-14 18:52:47 · 6104 阅读 · 0 评论 -
error: object kafka is not a member of package org.apache.spark.streaming
参考 https://forums.databricks.com/questions/7994/error-import-orgapachesparkstreamingkafka.htmlAdd the JARs..if you are using spark 1.6.1 ..try below dependency org.apache.spark spark-streaming-ka原创 2017-02-14 18:21:19 · 3657 阅读 · 0 评论 -
flume上传日志到ha hadoop hdfs上
将hadoop集群的core-site.xml和hdfs-site.xml放在flume的conf目录下 For HA, you must use the HA service name, such as hdfs://nameservice1/user/foo instead of hdfs://namenode-host:8020/user/foo. This will protect y原创 2017-02-13 11:50:44 · 2287 阅读 · 0 评论 -
Docker入门教程
http://www.docker.org.cn/book/docker/what-is-docker-16.html原创 2017-02-20 17:42:47 · 263 阅读 · 0 评论 -
spark hbase hbase-rdd
https://github.com/unicredit/hbase-rdd#writing-to-hbase原创 2017-01-21 16:28:55 · 297 阅读 · 0 评论 -
使用java连接hive过程中遇到的问题
http://blog.csdn.net/lanchunhui/article/details/50864137原创 2017-01-21 16:25:42 · 613 阅读 · 0 评论 -
java.lang.IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString
http://blog.csdn.net/stark_summer/article/details/47750017原创 2017-01-21 16:23:27 · 454 阅读 · 0 评论 -
Apache Spark - Apache HBase Connector
https://github.com/hortonworks-spark/shc#apache-spark—apache-hbase-connector原创 2017-01-21 16:14:23 · 1479 阅读 · 0 评论 -
Hive的JavaAPI操作
http://787141854-qq-com.iteye.com/blog/2068303原创 2017-01-21 16:13:23 · 2437 阅读 · 0 评论 -
org.apache.flume.ChannelFullException: Space for commit to queue couldn't be acquired. Sinks are lik
http://blog.csdn.net/hijk139/article/details/8465094 做以下修改agent.channels.memoryChanne3.keep-alive = 60agent.channels.memoryChanne3.capacity = 1000000修改java最大内存大小vi bin/flume-ngJAVA_OPTS="-Xmx2048m"原创 2017-02-24 16:05:52 · 2238 阅读 · 0 评论 -
dfs.datanode.du.reserved的含义
表示在datanode对磁盘写时候,保留多少非dfs的磁盘空间,从而避免dfs将所在的磁盘写满 ,但在0.19.2中该参数存在bug 。原创 2017-02-24 16:34:21 · 1025 阅读 · 0 评论 -
将 Spark 中的文本转换为 Parquet 以提升性能
https://www.ibm.com/developerworks/cn/analytics/blog/ba-parquet-for-spark-sql/index.html原创 2017-06-26 11:23:24 · 2287 阅读 · 1 评论 -
Spark将数据压缩存储
/tmp/dj/20170622.1498060818603为json数据 将数据压缩存储成parquetval logs = spark.read.json("/tmp/dj/20170622.1498060818603")//logs.coalesce(2).write.option("compression","gzip").json("/tmp/dj/json2")logs.coale原创 2017-06-23 17:26:38 · 2387 阅读 · 5 评论 -
spark stream上创建对象实例
kafkaStream.foreachRDD { rdd => rdd.foreachPartition { partition => //每次在这里创建一个kafka producer实例是不可取的 } }上边的方式会造通过kafka producer发送的数据部分丢失. 应该用如下的方式, 下边的这种方原创 2017-06-06 15:00:50 · 459 阅读 · 1 评论 -
使用zookeeper命令行
./zkCli.sh -server hostname原创 2017-05-23 15:42:04 · 652 阅读 · 0 评论 -
Spark Streaming集成Kafka总结
参考 http://colobu.com/2015/01/05/kafka-spark-streaming-integration-summary/原创 2017-03-14 17:13:01 · 756 阅读 · 0 评论 -
Spark优化之二:集群上运行jar程序,状态一直Accepted且不停止不报错
http://www.cnblogs.com/shixiangwan/p/6195297.html原创 2017-03-27 21:05:23 · 4292 阅读 · 0 评论 -
spark 自定义partitioner
package inpvimport org.apache.spark.Partitionerclass PvPartitioner(numParts: Int) extends Partitioner { override def numPartitions: Int = numParts override def getPartition(key: Any): Int = {原创 2017-03-10 18:14:27 · 719 阅读 · 0 评论 -
could only be replicated to 0 nodes instead of minReplication (=1). There are 4 datanode(s) running
http://stackoverflow.com/questions/34245682/could-only-be-replicated-to-0-nodes-instead-of-minreplication-1-there-are-4原创 2017-02-16 12:11:21 · 1343 阅读 · 0 评论 -
Hdfs磁盘存储策略和预留空间配置
下文写的很好,可能是今天大脑缺氧,一直没有完全看懂。 https://my.oschina.net/xiaozhublog/blog/786788原创 2017-02-24 16:58:39 · 3601 阅读 · 0 评论 -
java.lang.IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString
http://www.cnblogs.com/stark-summer/p/4829757.html原创 2017-01-21 16:12:29 · 795 阅读 · 0 评论 -
hadoop task的执行
一旦resource manager’s scheduler给一个任务分配了资源,application master就会启动这个task所在的container。task就是一个类名为YarnChild的java程序。在task运行之前,task运行所需的配置文件,jar文件等都会被复制到task所在的节点。最后,执行map task或者reduce task。因为YarnChild运行在一个专有原创 2017-01-20 17:27:45 · 781 阅读 · 0 评论 -
couchbase根据id进行查询
select * from default use keys ['20160103144149313737'];原创 2016-04-29 14:03:49 · 2021 阅读 · 0 评论 -
进入Couchbase命令行
bin/cbq --engine=http://couchbase:8093原创 2016-04-29 14:03:04 · 2166 阅读 · 0 评论 -
couchbase的limit的使用
select * from default limit 10 offset 5原创 2016-04-29 14:02:28 · 443 阅读 · 0 评论 -
zookeeper 命令
http://chinaxxren.iteye.com/blog/1621760转载 2014-04-01 11:08:41 · 529 阅读 · 0 评论 -
NullPointerException in ClientCnxn$EventThread.processEvent
这个是ZooKeeper的bug, 在3.5.2和3.6.0中已经修复原创 2015-12-23 16:12:30 · 458 阅读 · 0 评论 -
java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null
from http://blog.csdn.net/fansy1990/article/details/21160301http://www.bkjia.com/xtzh/742208.html使用flume的时候出现的问题。sink是hdfs,然后使用目录自动生成功能。出现如题的错误,看官网文档说的是需要在每个文件记录行的开头需要有时间戳,但是时间戳的格式可能比较难调转载 2014-04-02 23:03:34 · 1018 阅读 · 0 评论 -
empty value
做flume实验是,一直报一个错,...empty value. ...stateException....,也记不清了,最好我突发奇想,将flumechannel中的文件都删掉了,结果就不报这个错误了。原创 2014-04-03 09:49:00 · 1073 阅读 · 0 评论 -
大数据计算新贵Spark在腾讯雅虎优酷成功应用解析
大数据计算新贵Spark在腾讯雅虎优酷成功应用解析原创 2014-06-07 00:08:19 · 760 阅读 · 0 评论 -
自己实现文本相似度算法(余弦定理)
转自 http://my.oschina.net/BreathL/blog/42477最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非常好,受益匪浅。 于是我决定把它用到项目中,来判断两个文本的相似度。但后来实际操作发现有一些问题:直接说转载 2015-07-05 16:23:31 · 664 阅读 · 0 评论 -
开源可视化网页抓取工具Portia 爬虫
http://v.youku.com/v_show/id_XNjkzNjkwODE2.html https://github.com/scrapinghub/portia原创 2016-04-29 14:04:29 · 10005 阅读 · 0 评论 -
Linkedin Camus,从Kafka到HDFS的数据传输管道
http://blog.csdn.net/amghost/article/details/44258817原创 2016-05-16 16:38:46 · 1677 阅读 · 0 评论 -
Session 0x0 for server hostname/***.***.***.***:2181, unexpected error, closing socket connection an
程序所在机器对ZooKeeper的连接数超过了ZooKeeper设置允许的单个client最大连接数 详见http://www.cnblogs.com/panfeng412/archive/2013/03/23/hiveserver2-too-many-zookeeper-connections-issues.html原创 2017-01-18 16:20:44 · 3462 阅读 · 0 评论 -
Hadoop之日志存放路径
http://jaydenwang.blog.51cto.com/6033165/1839657原创 2017-02-08 18:14:15 · 281 阅读 · 0 评论 -
zookeeper 启动命令
zkCli.sh -server localhost:2181原创 2017-02-08 17:45:43 · 2602 阅读 · 0 评论 -
修改hdfs上目录的权限
http://www.linuxidc.com/Linux/2012-05/60635.htm原创 2017-02-08 17:40:55 · 29792 阅读 · 2 评论 -
spark 提交任务的时候指定名字
https://www.iteblog.com/archives/1140 https://my.oschina.net/cjun/blog/509247 --name 'My App'原创 2017-02-08 17:39:55 · 6568 阅读 · 1 评论 -
Flume-ng-1.4.0安装及运行遇到问题总结
http://blog.csdn.net/panguoyuan/article/details/39555239原创 2016-12-21 13:06:13 · 246 阅读 · 0 评论