理解scala的元组类型

scala> classOf[(Int,String)] res10: Class[(Int, String)] = class scala.Tuple2scala> classOf[(String,String)] res11: Class[(String, String)] = class scala.Tuple2scala> res10==res11 res12: Boolean = true...
阅读(161) 评论(0)

HTTP 协议中的 Transfer-Encoding

https://imququ.com/post/transfer-encoding-header-in-http.html本文作为我的博客「HTTP 相关」专题新的一篇,主要讨论 HTTP 协议中的 Transfer-Encoding。这个专题我会根据自己的理解,以尽量通俗的讲述,结合代码示例和实际场景来说明问题,欢迎大家关注和留言交流。Transfer-Encoding,是一个 HTTP 头部字...
阅读(87) 评论(0)

HTTP的输出流是假的流?

最近采用HTTP的输出流发数据:val url = new URL(httpPostURL); val httpConn = url.openConnection().asInstanceOf[HttpURLConnection]; httpConn.setRequestMethod("POST"); httpConn.setDoOutput(true); httpConn.setDoInput(t...
阅读(93) 评论(0)

spark structured streaming的source解析与自定义

如下代码:val lines = spark.readStream.format("socket") .option("host", "localhost").option("port", 9999).load();会创建一个socket类型的Source,该name2class的映射由DataSource.lookupDataSource()完成val serviceLoader = Se...
阅读(112) 评论(0)

Spark Streaming 自定义接收器

http://blog.csdn.net/ouyang111222/article/details/50414621Spark Streaming可以从任意数据源接受流数据,而不仅仅是那些内置支持的数据源(如Flume、kafka等)。这就要求开发人员实现一个接收器(recevier),用于接收来自有关数据源的数据。本篇手册以一个自定义的接收器(recevier)实现和其在spark stream...
阅读(59) 评论(0)

Spark2.0: Structured Streaming

启动nc:nc -lk 9999启动spark-shell:val lines = spark.readStream. | format("socket"). | option("host","localhost"). | option("port",9999). | load();lines: org.apache.spark.sql.DataFrame =...
阅读(129) 评论(0)

Spark Structured Streaming入门编程指南

https://www.iteblog.com/archives/2084.html概览  Structured Streaming 是一个可拓展,容错的,基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使用DataSet/DataFrame AP...
阅读(137) 评论(0)

Java为什么会引入及如何使用Unsafe

http://www.importnew.com/14511.html综述sun.misc.Unsafe至少从2004年Java1.4开始就存在于Java中了。在Java9中,为了提高JVM的可维护性,Unsafe和许多其他的东西一起都被作为内部使用类隐藏起来了。但是究竟是什么取代Unsafe不得而知,个人推测会有不止一样来取代它,那么问题来了,到底为什么要使用Unsafe?做一些Java语言不允...
阅读(72) 评论(0)

如何将大规模数据导入Neo4j

http://blog.csdn.net/xingxiupaioxue/article/details/71747284项目需要基于Neo4j开发,由于数据量较大(数千万节点),因此对当前数据插入的方法进行了分析和对比。常见数据插入方式概览Neo4j VersionLanguage DriverCommunity 3.0.2Python neo4j-driver 1.0.0目前主要有以下几种数据插...
阅读(387) 评论(0)

spark中的job和stage

编写了某个任务: val line = sc.textFile("hdfs://vm122:9000/dblp.rdf") line.flatMap { extractProperties }.groupBy(_._1).map(resource2JSON).saveAsTextFile("hdfs://vm122:9000/nodes"); 执行的时候可以看到spark分成2个stage:...
阅读(130) 评论(0)

spark任务已经执行结束,但还显示RUNNING状态

spark的任务已经执行完成:scala> val line = sc.textFile("hdfs://vm122:9000/dblp.rdf") line: org.apache.spark.rdd.RDD[String] = hdfs://vm122:9000/dblp.rdf MapPartitionsRDD[1] at textFile at :24scala> val...
阅读(228) 评论(0)

查看maven引入的某个jar的依赖项

使用mvn dependency:tree即可查看到依赖树...
阅读(157) 评论(0)

采用文件流写HDFS大文件

最近有个需求,要把笔记本上的一个近30GB的文件写到HDFS上去。无奈虚拟机服务器的本地硬盘都只有20GB的容量,原始文件无法采用copyFromLocal。试了一下笔记本通过copyFromLocal写到HDFS,无奈龟速。最后想到一个办法: 压缩文件,gz文件大概到7G的样子; 拷贝gz文件至服务器vm1; 在vm1上写程序,读取gz文件数据流,写到HDFS文件上去; 结果看起来还不错,代码如下...
阅读(159) 评论(0)

Neo4j图数据库简介和底层原理

http://www.cnblogs.com/bonelee/p/6211290.html现实中很多数据都是用图来表达的,比如社交网络中人与人的关系、地图数据、或是基因信息等等。RDBMS并不适合表达这类数据,而且由于海量数据的存在,让其显得捉襟见肘。NoSQL数据库的兴起,很好地解决了海量数据的存放问题,图数据库也是NoSQL的一个分支,相比于NoSQL中的其他分支,它很适合用来原生表达图结构的...
阅读(302) 评论(0)

Neo4j运行原理

http://www.linuxidc.com/Linux/2012-02/53689.htm一个Neo4J HA集群的协作运行,协调行为是通过zookeeper完成的。当一个Neo4j HA实体开启时将去连接协调器服务(zookeeper)注册其本身并询问“谁是主机(master)?”。如果某个机器是主机,新的实体将以从机(slaver)开启并连接到主机(master)。如果机器开启时为第一个注...
阅读(122) 评论(0)
369条 共25页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1203683次
    • 积分:11687
    • 等级:
    • 排名:第1288名
    • 原创:159篇
    • 转载:209篇
    • 译文:1篇
    • 评论:1159条
    自我介绍

    中国科学院博士,代码洁癖重度患者,10年以上Java Web架构、开发经验,非单一语言爱好者,熟悉C++/MFC/java/Scala开发技术,著有《标准C++开发入门与编程实践》《把脉VC++》,以及“白乔原创”系列技术文章多篇。

    开源贡献,欢迎star
    https://github.com/bluejoe2008
    邮箱:bluejoe2008@gmail.com
    私信知乎账号:bluejoe,关注我
    最新评论