离线之间-CSDN博客

原创 Spark技术相关文章汇总

使用Spark和MemSQL Spark连接器运行实时应用Apache Zeppelin使用入门指南：编程使用Ganglia监控SparkSpark+Kafka的Direct方式将偏移量发送到Zookeeper实现过往记忆

2016-09-01 16:41:28 234

原创 Spark Streaming实时读取Kafka

使用Spark Streaming读取Kafka时，要引用如下包<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.10</artifactId> <version>1.6.1</version></dependency> <dependency> <grou

2016-09-01 14:18:14 271

在不重启Hadoop集群的情况下添加和删除新节点（一）添加新节点：1.修改host和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves添加新增节点的ip或host 3.在新节点的机器上，启动服务./bin/hadoop-daemon.sh start datanode./bin/hadoop-daemon.sh start tasktr

2016-09-01 12:38:06 177

转载 Spark——数据库（Hbase+Mysql）

来自：http://www.cnblogs.com/xlturing/p/spark.html前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时，我们往往需要操作数据库，去统计或者改变一些值。最近一个实时消费者处理任务，在使用spark streaming进行实时的数据流处理时，我需要将计算好的数据更新到hbase和mysql中，所以本文

2016-08-27 23:49:34 298

转载让Spark如虎添翼的Zeppelin – 分享篇

来自：http://www.flyml.net/2016/08/26/reinforce-spark-with-zeppelin-share-your-work/原创声明:本文为原创文章如需转载需要在文章最开始显示本文原始链接为了更好的阅读体验，请回源站查看文章。有任何修改、订正只会在源站体现最后更新时间：2016年08月24日0. 前提

2016-08-27 21:51:16 784

转载 Spark Executor 长时间空闲

经常会碰到一种现象：只有少数 Executor 在运行，别的 Executor 长时间空闲。这种现象比较常见的原因是数据的分区比较少，可以使用 repartition 来提高并行度。另外一种原因和数据的本地性有关，请看下面的例子：用户的任务申请了 100 个 executors，每个 executor 的 cores 为 6，那么最多会有 600 个任务同时在运行，刚开始是 600 个任务在运行，接

2016-08-22 22:52:38 444

原创如何查看Spark的历史运行情况

平时当Spark程序运行时，通过在浏览器当中输入 spark-master-ip:4040 查看Spark运行的情况和信息，但是当程序运行结束时，4040页面就打不开了。原来可以通过设置配置文件，查看历史运行情况。1. 打开Spark conf目录下的spark-defaults.conf文件2. 在其中配置如下信息：spark.eventLog.enabled true

2016-08-07 20:24:03 1480

原创如何在Spark中记录日志

如何在Spark中记录我们自己想要输出的日志我们可以这样：object app { def main(args: Array[String]) { val log = LogManager.getRootLogger log.setLevel(Level.WARN) val conf = new SparkConf().setAppName("demo-app") val s

2016-08-05 22:00:47 330

原创如何把hdfs上的多个目录下的文件合并为一个文件

hdfs dfs -cat /folderpath/folder* | hdfs dfs -copyFromLocal - /newfolderpath/file这样可以把文件hdfs上 /folderpath目录下的/folder开头的文件，还不合并到/newfolderpath目录下的file一个文件中注意/folder*必须是文件，而不能是文件夹，如果是文件夹，可以/folder*/*cat

2016-08-03 20:53:21 4071

原创 Spark源码阅读（一）RDD

1. persist() & cache() def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) def cache(): this.type = persist()可以看出persist的存储级别是MEMORY_NOLY cache 与 persist 完全一样2. countByKey & countByValue d

2016-08-01 23:15:33 316

原创 Hadoop安装常见问题

安装好后50070页面打不开可能原因：防火墙未关闭，需要把每个节点的防火墙关闭命令：service iptables stop50070页面打开只显示一个节点或无节点可能原因：各个节点之间通信有问题之前安装过的文件直接拷贝过来的，需要把name和data目录下的内容全部删除，然后重新 hadoop namenode -format 如果还是不行，就只能查看日志有什么错误

2016-08-01 19:57:20 191

原创 Hadoop安装前准备

1. 安装Java2. 配置IP在 /etc/hosts 里面配置IP和主机名192.168.149.128 namenode192.168.149.129 datanode1192.168.149.130 datanode23. 配置环境变量最好新建一个用户，在该用户目录下的 .bashrc 中添加 JAVA_HOME等环境变量4. ssh免密码登录 ssh-keygen -t

2016-08-01 16:54:55 150

简易计算器

算法清晰，核心代码不超过100行！是我们C#老师的杰作！

2011-11-14

杭电ACM选修课课件

这是杭州电子科技大学老师刘春英ACM选修课课件，包括：1初识ACM 2简单数学题 3递推求解 4动态规划 5贪心算法 6并查集(最小生成树) 7计算几何基础 8母函数 9筛选法及预处理(附菜鸟的22个经典错误) 10组合博弈入门 11搜索入门 12特殊的数 13二分匹配及其应用

2011-07-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

wangzheng0408的专栏