使用Java编写并运行Spark应用程序

本文转自http://shiyanjun.cn/archives/742.html,所有权力归原作者所有。 我们首先提出这样一个简单的需求: 现在要分析某网站的访问日志信息,统计来自不同IP的用户访问的次数,从而通过Geo信息来获得来访用户所在国家地区分布状况。这里我拿我网站的日志记录行示...

2015-10-26 17:22:17

阅读数 949

评论数 0

最快速度求两个数组之交集算法

该题目来自58同城的二面,用最快速度求两个数组之交集算法。 比如A={6,2,4,1},B={2,9,4,3},那么A&B={2,4}。 算法一:在大多数情况,也就是一般的情况下,大家都能想出最暴力的解法,通常也就是采用遍历或者枚举的办法来解决问题。 该题需要...

2015-10-26 17:18:09

阅读数 9953

评论数 2

Spark GraphX相关使用方法

Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。Spark GraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是...

2015-10-24 21:25:56

阅读数 2213

评论数 0

java.util.vector中的vector的详细用法

ArrayList会比Vector快,他是非同步的,如果设计涉及到多线程,还是用Vector比较好一些  import java.util.*;   /**  * 演示Vector的使用。包括Vector的创建、向Vector中添加元素、从Vector中删除元素、  * 统计Ve...

2015-10-22 15:59:07

阅读数 420

评论数 0

Mysql 分页语句Limit用法

1、Mysql的limit用法   在我们使用查询语句的时候,经常要返回前几条或者中间某几行数据,这个时候怎么办呢?不用担心,mysql已经为我们提供了这样一个功能。   Sql代码   SELECT * FROM table LIMIT [offset,...

2015-10-19 15:16:30

阅读数 908

评论数 0

Spark SQL 1.3.0 DataFrame介绍、使用及提供了些完整的数据写入

 问题导读 1.DataFrame是什么? 2.如何创建DataFrame? 3.如何将普通RDD转变为DataFrame? 4.如何使用DataFrame? 5.在1.3.0中,提供了哪些完整的数据写入支持API? 自2013年3月面世以来,...

2015-10-13 15:24:38

阅读数 955

评论数 0

关于数据挖掘的something

数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线...

2015-10-08 16:19:07

阅读数 1931

评论数 0

ARGMAX(以及ARGMIN)的意思

经常在FOLIE里看到argmax和argmin 无奈国内没学过 今天上课又讲到 不学会实在不行啊。。。 于是WIKI了下 http://de.wikipedia.org/wiki/Argmin argmax: argumentum maximi 论证最大? 个人理解就是 以a...

2015-10-01 11:09:08

阅读数 1583

评论数 0

提示
确定要删除当前文章?
取消 删除