自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (3)
  • 收藏
  • 关注

原创 mongodb-aggregate聚合日期分组

最近有个妹子,在项目中遇到了mongodb中时间类型查询和聚合分组的事情,本来搞IT的妹子就很少,所以希望大家能够善待IT程序媛,好了废话不多说了。 mongdob里面保存的是json类型的数据,如果你在插入数据的时候,时间字段插入的是日期类型的数据(Date),那么在mongodb里面会是ISODate类型的。ISODate和咱们现在的时区不一样,IOSDate默认是慢8个小时的。所以再次操作时

2017-03-31 14:51:39 8849 2

原创 spark-rdd-api

RDD[T] Transformationspersist/cache 缓存rdd(存储级别的不同 disk,disk-and-mem,mem )map(f: T => U) 转换keyBy(f: T => K) 特殊的map,提key作用于key-value 数据flatMap(f: T => Iterable[U]) Flatmap可以理解为展开,如果rdd的一条记录是一

2017-03-24 16:05:35 400

转载 spark-jion优化

Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。 SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,常见的3种实现。 SparkSQL的3种Join实现大家知道,在数据库的常见模型中(比如星型模型或者雪花模

2017-03-24 01:02:38 521

原创 spark读取mongodb

Spark-mongodb: Spark操作mongodb的api提供了RDD和dataSet、DataFrame读取方式。关键看你的spark的使用版本,第三方依赖包的下载见mongodb官网 def load[D: ClassTag](sc: SparkContext, readConfig: ReadConfig)(implicit e: D DefaultsTo Document): M

2017-03-16 16:12:48 9340

原创 idea 15 license key

43B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0QTczWVlKIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IkZvciBlZHVjYXRpb25hbCB1c2Ugb25seSIsImNoZWNrQ2

2017-03-14 13:08:27 1098

原创 中文分词--anjs_seg

ToAnalysis 精准分词精准分词是Ansj分词的店长推荐款 它在易用性,稳定性.准确性.以及分词效率上.都取得了一个不错的平衡.如果你初次尝试Ansj如果你想开箱即用.那么就用这个分词方式是不会错的. DicAnalysis 用户自定义词典优先策略的分词 用户自定义词典优先策略的分词,如果你的用户自定义词典足够好,或者你的需求对用户自定义词典的要求比较高,那么强烈建议你使用DicAnal

2017-03-07 20:49:13 1325

原创 社区发现-Fast Unfolding

一、简介 在社区划分问题中,存在着很多的算法,如由Newman和Gievan提出的GN算法,标签传播算法(Label Propagation Algorithm, LPA),这些算法都能一定程度的解决社区划分的问题,但是性能则是各不相同。总的来说,在社区划分中,主要分为两大类算法 1.凝聚方法(agglomerative method):添加边 2.分裂方法(divisive method):

2017-03-07 12:51:46 5995 5

原创 graphx-社区发现(community detection)

LPA算法(标签传播算法) 1、为所有的节点指定一个唯一的标签 2、逐轮刷新所有节点的标签,直到达到收敛要求为止,对于每一轮刷新,节点标签刷新的规则如下: 对某一个节点,考察其所有邻居节点的标签,并进行统计,将出现个数最多的那个标签赋给当前节点,当个数最多的标签不唯一时,随机选择一个。 目前spark-graphx实现了该社区发现算法。该算法优点就是算法原理简单,实现简便,廉价的计算;缺点就

2017-03-07 11:30:42 7230 2

基于C++的定时关机的实现

基于C++的定时关机的实现

2015-03-30

C++实现的简单投票系统

基于C++实现的简单的投票系统 基于C++实现的简单的投票系统 代码简单易懂 希望能够给大家提供学习的资料

2015-03-30

VC显示行号

VC++6.0 编译器  显示行号的插件

2015-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除