大数据_passer199101的博客-CSDN博客

大数据

关注

关注数：文章数：44 文章阅读量：118114 文章收藏量：14

作者: passer199101

这个作者很懒，什么都没留下…

展开

专栏收录文章

zeppelin mysql配置

http://bigdatums.net/2017/03/02/connecting-apache-zeppelin-to-mysql/

原创 2017-07-08 14:29:31 · 943 阅读 · 0 评论
Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientCo

Spark2.0 yarn方式启动报错 https://my.oschina.net/xiaozhublog/blog/737902

原创 2017-02-14 18:52:47 · 6187 阅读 · 0 评论
error: object kafka is not a member of package org.apache.spark.streaming

参考 https://forums.databricks.com/questions/7994/error-import-orgapachesparkstreamingkafka.htmlAdd the JARs..if you are using spark 1.6.1 ..try below dependency org.apache.spark spark-streaming-ka

原创 2017-02-14 18:21:19 · 3714 阅读 · 0 评论
flume上传日志到ha hadoop hdfs上

将hadoop集群的core-site.xml和hdfs-site.xml放在flume的conf目录下 For HA, you must use the HA service name, such as hdfs://nameservice1/user/foo instead of hdfs://namenode-host:8020/user/foo. This will protect y

原创 2017-02-13 11:50:44 · 2377 阅读 · 0 评论
Docker入门教程

http://www.docker.org.cn/book/docker/what-is-docker-16.html

原创 2017-02-20 17:42:47 · 300 阅读 · 0 评论
spark hbase hbase-rdd

https://github.com/unicredit/hbase-rdd#writing-to-hbase

原创 2017-01-21 16:28:55 · 347 阅读 · 0 评论
使用java连接hive过程中遇到的问题

http://blog.csdn.net/lanchunhui/article/details/50864137

原创 2017-01-21 16:25:42 · 676 阅读 · 0 评论
java.lang.IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString

http://blog.csdn.net/stark_summer/article/details/47750017

原创 2017-01-21 16:23:27 · 543 阅读 · 0 评论
Apache Spark - Apache HBase Connector

https://github.com/hortonworks-spark/shc#apache-spark—apache-hbase-connector

原创 2017-01-21 16:14:23 · 1536 阅读 · 0 评论
Hive的JavaAPI操作

http://787141854-qq-com.iteye.com/blog/2068303

原创 2017-01-21 16:13:23 · 2503 阅读 · 0 评论
org.apache.flume.ChannelFullException: Space for commit to queue couldn't be acquired. Sinks are lik

http://blog.csdn.net/hijk139/article/details/8465094 做以下修改agent.channels.memoryChanne3.keep-alive = 60agent.channels.memoryChanne3.capacity = 1000000修改java最大内存大小vi bin/flume-ngJAVA_OPTS="-Xmx2048m"

原创 2017-02-24 16:05:52 · 2328 阅读 · 0 评论
dfs.datanode.du.reserved的含义

表示在datanode对磁盘写时候，保留多少非dfs的磁盘空间，从而避免dfs将所在的磁盘写满，但在0.19.2中该参数存在bug 。

原创 2017-02-24 16:34:21 · 1178 阅读 · 0 评论
将 Spark 中的文本转换为 Parquet 以提升性能

https://www.ibm.com/developerworks/cn/analytics/blog/ba-parquet-for-spark-sql/index.html

原创 2017-06-26 11:23:24 · 2381 阅读 · 1 评论
Spark将数据压缩存储

/tmp/dj/20170622.1498060818603为json数据将数据压缩存储成parquetval logs = spark.read.json("/tmp/dj/20170622.1498060818603")//logs.coalesce(2).write.option("compression","gzip").json("/tmp/dj/json2")logs.coale

原创 2017-06-23 17:26:38 · 2490 阅读 · 5 评论
spark stream上创建对象实例

kafkaStream.foreachRDD { rdd => rdd.foreachPartition { partition => //每次在这里创建一个kafka producer实例是不可取的 } }上边的方式会造通过kafka producer发送的数据部分丢失. 应该用如下的方式, 下边的这种方

原创 2017-06-06 15:00:50 · 523 阅读 · 1 评论
使用zookeeper命令行

./zkCli.sh -server hostname

原创 2017-05-23 15:42:04 · 718 阅读 · 0 评论
Spark Streaming集成Kafka总结

参考 http://colobu.com/2015/01/05/kafka-spark-streaming-integration-summary/

原创 2017-03-14 17:13:01 · 796 阅读 · 0 评论
Spark优化之二：集群上运行jar程序，状态一直Accepted且不停止不报错

http://www.cnblogs.com/shixiangwan/p/6195297.html

原创 2017-03-27 21:05:23 · 4388 阅读 · 0 评论
spark 自定义partitioner

package inpvimport org.apache.spark.Partitionerclass PvPartitioner(numParts: Int) extends Partitioner { override def numPartitions: Int = numParts override def getPartition(key: Any): Int = {

原创 2017-03-10 18:14:27 · 807 阅读 · 0 评论
could only be replicated to 0 nodes instead of minReplication (=1). There are 4 datanode(s) running

http://stackoverflow.com/questions/34245682/could-only-be-replicated-to-0-nodes-instead-of-minreplication-1-there-are-4

原创 2017-02-16 12:11:21 · 1415 阅读 · 0 评论
Hdfs磁盘存储策略和预留空间配置

下文写的很好，可能是今天大脑缺氧，一直没有完全看懂。 https://my.oschina.net/xiaozhublog/blog/786788

原创 2017-02-24 16:58:39 · 3724 阅读 · 0 评论
java.lang.IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString

http://www.cnblogs.com/stark-summer/p/4829757.html

原创 2017-01-21 16:12:29 · 914 阅读 · 0 评论
hadoop task的执行

一旦resource manager’s scheduler给一个任务分配了资源,application master就会启动这个task所在的container。task就是一个类名为YarnChild的java程序。在task运行之前，task运行所需的配置文件，jar文件等都会被复制到task所在的节点。最后，执行map task或者reduce task。因为YarnChild运行在一个专有

原创 2017-01-20 17:27:45 · 854 阅读 · 0 评论
couchbase根据id进行查询

select * from default use keys ['20160103144149313737'];

原创 2016-04-29 14:03:49 · 2116 阅读 · 0 评论
进入Couchbase命令行

bin/cbq --engine=http://couchbase:8093

原创 2016-04-29 14:03:04 · 2237 阅读 · 0 评论
couchbase的limit的使用

select * from default limit 10 offset 5

原创 2016-04-29 14:02:28 · 502 阅读 · 0 评论
zookeeper 命令

http://chinaxxren.iteye.com/blog/1621760

转载 2014-04-01 11:08:41 · 572 阅读 · 0 评论
NullPointerException in ClientCnxn$EventThread.processEvent

这个是ZooKeeper的bug, 在3.5.2和3.6.0中已经修复

原创 2015-12-23 16:12:30 · 512 阅读 · 0 评论
java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null

from http://blog.csdn.net/fansy1990/article/details/21160301http://www.bkjia.com/xtzh/742208.html使用flume的时候出现的问题。sink是hdfs，然后使用目录自动生成功能。出现如题的错误，看官网文档说的是需要在每个文件记录行的开头需要有时间戳，但是时间戳的格式可能比较难调

转载 2014-04-02 23:03:34 · 1070 阅读 · 0 评论
empty value

做flume实验是，一直报一个错，...empty value. ...stateException....,也记不清了，最好我突发奇想，将flumechannel中的文件都删掉了，结果就不报这个错误了。

原创 2014-04-03 09:49:00 · 1170 阅读 · 0 评论
大数据计算新贵Spark在腾讯雅虎优酷成功应用解析

大数据计算新贵Spark在腾讯雅虎优酷成功应用解析

原创 2014-06-07 00:08:19 · 813 阅读 · 0 评论
自己实现文本相似度算法（余弦定理）

转自 http://my.oschina.net/BreathL/blog/42477最近由于工作项目，需要判断两个txt文本是否相似，于是开始在网上找资料研究，因为在程序中会把文本转换成String再做比较，所以最开始找到了这篇关于距离编辑算法 Blog写的非常好，受益匪浅。于是我决定把它用到项目中，来判断两个文本的相似度。但后来实际操作发现有一些问题：直接说

转载 2015-07-05 16:23:31 · 710 阅读 · 0 评论
开源可视化网页抓取工具Portia 爬虫

http://v.youku.com/v_show/id_XNjkzNjkwODE2.html https://github.com/scrapinghub/portia

原创 2016-04-29 14:04:29 · 10177 阅读 · 0 评论
Linkedin Camus，从Kafka到HDFS的数据传输管道

http://blog.csdn.net/amghost/article/details/44258817

原创 2016-05-16 16:38:46 · 1742 阅读 · 0 评论
Session 0x0 for server hostname/***.***.***.***:2181, unexpected error, closing socket connection an

程序所在机器对ZooKeeper的连接数超过了ZooKeeper设置允许的单个client最大连接数详见http://www.cnblogs.com/panfeng412/archive/2013/03/23/hiveserver2-too-many-zookeeper-connections-issues.html

原创 2017-01-18 16:20:44 · 3625 阅读 · 0 评论
Hadoop之日志存放路径

http://jaydenwang.blog.51cto.com/6033165/1839657

原创 2017-02-08 18:14:15 · 346 阅读 · 0 评论
zookeeper 启动命令

zkCli.sh -server localhost:2181

原创 2017-02-08 17:45:43 · 2675 阅读 · 0 评论
修改hdfs上目录的权限

http://www.linuxidc.com/Linux/2012-05/60635.htm

原创 2017-02-08 17:40:55 · 30077 阅读 · 2 评论
spark 提交任务的时候指定名字

https://www.iteblog.com/archives/1140 https://my.oschina.net/cjun/blog/509247 --name 'My App'

原创 2017-02-08 17:39:55 · 6724 阅读 · 1 评论
Flume-ng-1.4.0安装及运行遇到问题总结

http://blog.csdn.net/panguoyuan/article/details/39555239

原创 2016-12-21 13:06:13 · 293 阅读 · 0 评论

大数据

作者: passer199101

zeppelin mysql配置

Exception in thread "main" java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientCo

error: object kafka is not a member of package org.apache.spark.streaming

flume上传日志到ha hadoop hdfs上

Docker入门教程

spark hbase hbase-rdd

使用java连接hive过程中遇到的问题

java.lang.IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString

Apache Spark - Apache HBase Connector

Hive的JavaAPI操作

org.apache.flume.ChannelFullException: Space for commit to queue couldn't be acquired. Sinks are lik

dfs.datanode.du.reserved的含义

将 Spark 中的文本转换为 Parquet 以提升性能

Spark将数据压缩存储

spark stream上创建对象实例

使用zookeeper命令行

Spark Streaming集成Kafka总结

Spark优化之二：集群上运行jar程序，状态一直Accepted且不停止不报错

spark 自定义partitioner

could only be replicated to 0 nodes instead of minReplication (=1). There are 4 datanode(s) running

Hdfs磁盘存储策略和预留空间配置

java.lang.IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString

hadoop task的执行

couchbase根据id进行查询

进入Couchbase命令行

couchbase的limit的使用

zookeeper 命令

NullPointerException in ClientCnxn$EventThread.processEvent

java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null

empty value

大数据计算新贵Spark在腾讯雅虎优酷成功应用解析

自己实现文本相似度算法（余弦定理）

开源可视化网页抓取工具Portia 爬虫

Linkedin Camus，从Kafka到HDFS的数据传输管道

Session 0x0 for server hostname/***.***.***.***:2181, unexpected error, closing socket connection an

Hadoop之日志存放路径

zookeeper 启动命令

修改hdfs上目录的权限

spark 提交任务的时候指定名字

Flume-ng-1.4.0安装及运行遇到问题总结

Session 0x0 for server hostname/...:2181, unexpected error, closing socket connection an