- 博客(8)
- 资源 (5)
- 问答 (2)
- 收藏
- 关注
转载 使用Java编写并运行Spark应用程序
本文转自http://shiyanjun.cn/archives/742.html,所有权力归原作者所有。我们首先提出这样一个简单的需求:现在要分析某网站的访问日志信息,统计来自不同IP的用户访问的次数,从而通过Geo信息来获得来访用户所在国家地区分布状况。这里我拿我网站的日志记录行示例,如下所示:1121.205.198.92 - - [2
2015-10-26 17:22:17 1327
转载 最快速度求两个数组之交集算法
该题目来自58同城的二面,用最快速度求两个数组之交集算法。比如A={6,2,4,1},B={2,9,4,3},那么A&B={2,4}。算法一:在大多数情况,也就是一般的情况下,大家都能想出最暴力的解法,通常也就是采用遍历或者枚举的办法来解决问题。该题需要找出两个数组的交集,最简单的一个办法就是用A数组里面的所有数去匹配B数组里面的数。假设两个数组的大小都是n,那
2015-10-26 17:18:09 16191 2
转载 Spark GraphX相关使用方法
Spark GraphX是一个分布式图处理框架,Spark GraphX基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。Spark GraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的图处理系统。图的分布式或者并行处理其实是把这张图拆分成很多的子图,然后我们分别对这些子图进行计算,计算的时候可以分别迭代进行分阶段的计算,即对
2015-10-24 21:25:56 2756
转载 java.util.vector中的vector的详细用法
ArrayList会比Vector快,他是非同步的,如果设计涉及到多线程,还是用Vector比较好一些 import java.util.*; /** * 演示Vector的使用。包括Vector的创建、向Vector中添加元素、从Vector中删除元素、 * 统计Vector中元素的个数和遍历Vector中的元素。 */public class Vecto
2015-10-22 15:59:07 628
转载 Mysql 分页语句Limit用法
1、Mysql的limit用法 在我们使用查询语句的时候,经常要返回前几条或者中间某几行数据,这个时候怎么办呢?不用担心,mysql已经为我们提供了这样一个功能。 Sql代码 SELECT * FROM table LIMIT [offset,] rows | rows OFFSET offset LIMIT 子句可以被
2015-10-19 15:16:30 1197
转载 Spark SQL 1.3.0 DataFrame介绍、使用及提供了些完整的数据写入
问题导读1.DataFrame是什么?2.如何创建DataFrame?3.如何将普通RDD转变为DataFrame?4.如何使用DataFrame?5.在1.3.0中,提供了哪些完整的数据写入支持API?自2013年3月面世以来,Spark SQL已经成为除Spark Core以外最大的Spark组件。除了接过Shark的接力棒,
2015-10-13 15:24:38 1158
转载 关于数据挖掘的something
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
2015-10-08 16:19:07 2964
转载 ARGMAX(以及ARGMIN)的意思
经常在FOLIE里看到argmax和argmin 无奈国内没学过今天上课又讲到 不学会实在不行啊。。。 于是WIKI了下http://de.wikipedia.org/wiki/Argminargmax: argumentum maximi论证最大?个人理解就是 以argmax取最大值时 将变量的取值赋值给式子反之就是argmin
2015-10-01 11:09:08 3006
PHP pgsql驱动文件
2022-05-13
feralpacket.ini.txt
2020-05-13
idea-plugin.zip
2019-11-18
对Spark RDD中的数据进行处理
2015-07-17
TA创建的收藏夹 TA关注的收藏夹
TA关注的人