自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

飞飞好奇的专栏

Fly For Fun 深入分布式、中间件、系统架构技术研究; 专注互联网金融、互联网文化娱乐行业。

  • 博客(10)
  • 收藏
  • 关注

原创 JAVA8学习(一)List、Map的循环迭代

学习怎样用java8去循环迭代1、MapMap items = new HashMap<>();items.put(1, "wangwu");items.put(2, "zhangsan");items.put(3, "lisi");items.put(4, maliu);items.forEach((k,v)->System.out.println("Item : " + k

2016-12-29 18:17:52 5413

原创 Python基础学习(二)

if __name__== "__main__"python脚本时会发现有的脚本下面有几行代码;if __name__== "__main__": main()这两行代码表示该脚本既可以导入到别的模块中用,也自己可执行模块是对象,并且所有的模块都有一个内置属性 __name__。一个模块的 __name__ 的值取决于您如何应用模块。如果 import 一个模块,那么模块__na

2016-12-23 16:20:59 283

原创 Python基础学习(一)

Python是一种解释型编程语言Python的语法比较简单,采用缩进方式Python程序是大小写敏感的,如果写错了大小写,程序会报错。一、Python的数据类型:整数Python可以处理任意大小的整数,也包括负整数。浮点数浮点数也就是小数,之所以称为浮点数,是因为按照科学记数法表示时,一个浮点数的小数点位置是可变的,比如,1.23x109和12.3x108是相等

2016-12-22 10:52:37 296

原创 TF-IDF算法学习

TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做词频-逆文档频率。在文本挖掘(Text Mining)和信息检索(Information Retrieval)领域具有广泛的应用。它的基本思想是:在一个文档集合S中,根据单个文档D中某个关键字k的出现频率以及集合中出现该关键字的文档总数,计算该关键字关于文档D的权值。一、TF(Ter

2016-12-20 13:34:13 439

原创 Spark核心操作--Transformation和Action

Transformations把一个RDD(数据集合)转换成另一个RDD(数据集合)•map•filter•flatMap•mapPartitions•mapPartitionsWithIndex•sample•union•intersection•distinct•groupByKey•reduceByKey•aggregateByKey•

2016-12-19 17:17:44 296

原创 Spark的核心概念——RDD

Spark的核心概念——RDDRDD(resilient distributed dataset )Spark基本计算单元,是Spark数据集 最核心的东西。表示已被分区、被序列化、不可变的、有容错机制的、能被并行操作的数据集合弹性分布式Resilient 当一个RDD分区(partition)丢失之后,Spark会自动通过lineage,从其原始的RDD重新计算。Distribu

2016-12-19 16:53:44 548

原创 Spark特点

Spark特点1、先进架构Spark采用Scala语言编写,底层采用了actor mode的akka作为通讯框架,代码十分简洁高效。基于DAG图的执行引擎,减少多次计算之间中间结果写到hdfs的开销。建立在统一抽象的RDD(分布式内存抽象)之上,使得它可以以基本一致的方式应对不同的大数据处理场景。2、高效提供Cache机制来支持需要反复迭代的计算或者多次数据共享,减少数据读

2016-12-19 10:28:02 3406

原创 Spark编程模型概述

1、概述Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。Spark是一张有向无环图(从一个点出发最终无法回到该点的一个拓扑),并对其进行优化。Spark应用程序在集群上运行着独立、平行的操作集合,并且由主入口main函数,也可以称driver program(驱动程序)创建的SparkContext管理。SparkContext可以连接到几种类型的集群管

2016-12-16 18:24:46 704

原创 新闻推荐:谷歌新闻、搜狐新闻、今日头条调研分析

本文从谷歌新闻、搜狐新闻、今日头条的推荐系统,分析新闻资讯行业,推荐系统采用的主要策略。1、谷歌新闻Rec(article) =IF(article) ×CF(article)IF(article)内容过滤GoogleNews把新闻文章分类到预先定义好的话题类别中,包括国际、体育、娱乐等。在日志分析中,根据用户的搜索和点击行为,构建贝叶斯框架,预测用

2016-12-12 14:48:18 2277 1

原创 eclipse+scala+java+maven 整合实践

一、软件版本Eclipse Mars.1 (4.5.1)Apache Maven 3.3.9二、下载scala plugin1.在scala-ide.org网站上可以找到链接和下载地址http://scala-ide.org/download/current.html2.打开Eclipse,Help -> Install New Software(因网络问题

2016-12-01 18:30:35 2855 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除