_水木_-CSDN博客

转载《人工智能：国家人工智能战略行动抓手》腾讯研究院 PDF

《人工智能：国家人工智能战略行动抓手》腾讯研究院 PDF 百度网盘下载：https://pan.baidu.com/s/1V_NQi0arYS9v9vVVksmesg

2019-03-07 14:43:59 2854

转载项目管理心得：一个项目经理的个人体会、经验总结

前言：介于许多人对项目经理这个职位的陌生和含糊，将自己的切身经历和阅读、交流得到的一些经典案例整理出来，有朋友问我，这篇文章出处在哪里？这些经历很多不是一个人的经历，这些总结很多也不是出自一个人之手，如同我们觉得一段代码写的很好，必定会收藏整理成为自己的一部分加以完善共享，接着不断的有人完善共享下去，我们谁都不敢说自己是最聪明的人，但只要不断的学习总结别人已经有的经

2016-09-09 15:59:29 1052

原创 logstash读取kafka数据插件

最近公司做日志检索和计数日志不同维度统计，选用了ELK，我们的日志已经上传到Kafka中，Logstash需要从Kafka读取数据，下面是Logstash的简化配置： input { kafka { #Kafka topic topic_id => "test_count_log" #消费者组 group_id =>

2016-09-07 17:25:52 6947

原创通过JDBC访问ThriftServer

通过JDBC访问Thrift Server，进而访问Spark SQL，进而访问Hive String sql = "select name from test where age = ?"; String sql = "select name from test where age = ?"; Connection conn = null; ResultSet resultSe

2016-08-30 08:42:22 1344

原创 Scala类型系统编程

1、Scala的类和方法、函数都可以是泛型，在Spark源码中可以到处看到类和方法的泛型，在实际实例化的时候指定具体的类型，例如Spark最核心、最基础、最重要的抽象数据结构RDD里面关于RDD的类的定义是泛型的，RDD的几乎所有方法的定义也都是泛型的，之所以这么做，是因为RDD会派生很多子类，通过子类适配了各种不同的数据源以及业务逻辑操作； 2、关于对类型边界的限定，分为上边界和下边界：上

2016-08-22 18:22:24 377

原创 Scala中的Map和Tuple

1、默认情况下Map构造的是不可变的集合，里面的内容不可修改，一旦修改就变成新的Map，原有的Map内容保持不变； 2、Map的实例是调用工厂方法模式apply来构造Map实例，而需要主要的是Map是接口，在apply中使用了具体的实现； 3、如果想直接new出Map实例，则需要使用HashMap等具体的Map子类； 4、查询一个Map中的的值一定是采用getOrElse的语法的，一方面是在

2016-08-22 18:17:14 3420

原创 Scala函数式编程

1、函数和变量一样作为Scala语言的一等公民，函数可以直接赋值给变量； 2、函数更长用的方式是匿名函数，定义的时候只需要说明输入参数的类型和函数体即可，不需要名称，但是如果你要使用的话，一般会把这个匿名函数赋值给一个变量（其实是val常量），Spark源码中大量存在这种语法，必须掌握； 3, 函数可以作为参数直接传递给函数，这极大的简化的编程的语法，为什么这样说呢？原因非常简

2016-08-22 18:11:42 1776

原创 Scala数据集合操作

大数据技术是数据的集合以及对数据集合的操作技术的统称，具体来说： 1，数据集合：会涉及数据的搜集、存储等，搜集会有很多技术，存储现在比较经典的是使用Hadoop，也有很多情况使用Kafka； 2，对数据集合的操作技术：目前全球最火爆的是Spark； Spark的框架实现语言是Scala，首选的应用程序开发语言也是Scala，所以Scala对集合以及集合操作的支持就至关重要且必须异常强

2016-08-22 17:49:36 3450

原创 SparkSQL中UDF和UDAF

UDF: User Defined Function，用户自定义的函数，函数的输入是一条具体的数据记录，实现上讲就是普通的Scala函数； UDAF：User Defined Aggregation Function，用户自定义的聚合函数，函数本身作用于数据集合，能够在聚合操作的基础上进行自定义操作；实质上讲，例如说UDF会被Spark SQL中的Catalyst封装成为Expression

2016-08-17 09:33:23 7134

使用Spark SQL中的内置函数对数据进行分析，Spark SQL API不同的是，DataFrame中的内置函数操作的结果是返回一个Column对象，而DataFrame天生就是"A distributed collection of data organized into named columns.",这就为数据的复杂分析建立了坚实的基础并提供了极大的方便性，例如说，我们在操作DataFr

2016-08-15 07:24:23 13347 1

原创 Nginx+keepalived配置负载均衡

在Keepalived + Nginx高可靠负载均衡架构中，keepalived负责实现High-availability (HA) 功能控制前端机VIP(虚拟网络地址)，当有设备发生故障时，热备服务器可以瞬间将VIP自动切换过来，实际运行中体验只有2秒钟切换时间，DNS服务可以负责前端VIP的负载均衡。

2016-07-29 16:28:19 517

原创 Spark函数：cogroup

cogroup:对两个RDD中的KV元素，每个RDD中相同key中的元素分别聚合成一个集合。与reduceByKey不同的是针对两个RDD中相同的key的元素进行合并。将多个RDD中同一个Key对应的Value组合到一起。 data1中不存在Key为3的元素（自然就不存在Value了），在组合的过程中将data1对应的位置设置为CompactBuffer()了

2016-05-10 14:32:41 14198

原创 PhoneGap读写SD卡（键值对方式）

var fileSystem = null; //等待加载PhonrGap document.addEventListener("deviceready", onDeviceReady, true); function onDeviceReady() { //request the persistent file system window.requestFileSy...

2013-09-11 17:50:55 102

麒麟