自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (5)
  • 收藏
  • 关注

转载 搜索引擎选择: Elasticsearch与Solr

原文地址搜索引擎选型调研文档Elasticsearch简介*Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的

2017-06-19 17:45:10 350

转载 RDD的检查点

首先,要清楚。为什么spark要引入检查点机制?引入RDD的检查点?    答:如果缓存丢失了,则需要重新计算。如果计算特别复杂或者计算耗时特别多,那么缓存丢失对于整个Job的影响是不容忽视的。为了避免缓存丢失重新计算带来的开销,Spark又引入检查点机制。        RDD的缓存能够在第一次计算完成后,将计算结果保存到内存、本地文件系统或者Tachyon(分布式内存文件系统)

2017-06-19 17:23:07 620

转载 Spark MLlib系列(一):入门介绍

原文地址前言最新的情况是国内BAT已经都上了spark,而且spark在hadoop上的应用,大有为大象插上翅膀的效果。个人估计在未来两到三年,spark大有代替hadoop的mapreduce的趋势。应该说spark的在使用上面的经济成本,性能优势,一站式解决能力,一定会使其大放异彩。因为个人对spark很感兴趣,加上项目中需要使用它解决一些机器学习的问题,在网上搜集资料

2017-06-15 09:28:42 622

转载 Linux curl命令详解

命令:curl在Linux中curl是一个利用URL规则在命令行下工作的文件传输工具,可以说是一款很强大的http命令行工具。它支持文件的上传和下载,是综合传输工具,但按传统,习惯称url为下载工具。语法:# curl [option] [url]常见参数:-A/--user-agent 设置用户代理发送给服务器-b/--cookie

2017-06-10 14:13:50 264

转载 解决spark-shell输出日志信息过多

当我们执行Spark-shell的时候,会出现如下界面,如果觉得显示信息过多可通过修改conf文件夹下的log4j.properties文件让其只显示警告信息,而不显示所有的信息1。 解决方案进入到spark目录/conf文件夹下,此时有一个log4j.properties.template文件,我们执行如下命令将其拷贝一份为log4j.properties,并对log4j.pro

2017-06-05 20:49:55 1969

原创 spark 常用函数总结

1, textFile()  读取外部数据源2, map() 对每一条数据进行相应的处理 如切分3, reduceByKey(_+_) 传入一个函数,将key相同的一类进行聚合计算 如相加4, mapvalues(_+10) 传入一个函数,类似于map方法,不过这里只是对元组中的value进行计算5,filter() 传入一个函数, 用户过滤处理数据

2017-06-02 17:17:47 5076

tesseract-ocr-setup-3.02.02.exe 64位版

tesseract-ocr-setup-3.02.02.exe 64位版,最新绿色版本

2017-10-09

CClearn5.29最新绿化版

CClearn5.29最新绿化版

2017-04-30

新巴巴网10天的文档(10天全有)

新巴巴网10天的文档(10天全有)

2017-04-01

charles-4.0_X64位破解文件 免费版.rar

charles-4.0_X64位破解文件 免费版.rar

2016-08-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除