自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 读《机器学习:实战》(一):第二章 k-近岭算法

第二章-(k-近邻算法) 1.k-近岭算法概述 概念:采用测量不同特征值之间的距离方法进行分类 优缺点 优点:精度高,对异常值不敏感,无数据输入假定 缺点:计算复杂度高,空间复杂度高 适用于:标称型和数值型 工作原理...

2017-04-04 18:18:00 128

转载 eclipse下配置maven-scala环境,开发spark

工具:eclipse 4.4.0自己带有maven环境所以,所以maven环境搭建不再多说,请自行百度 1.安装scala-idea for eclipse。 官网:http://scala-ide.org/download/nightly.html 下载完成后,安装...

2017-03-21 18:01:00 122

转载 Spark算子学习(一)

2017.3.19。开始静下心来学习Spark,环境还没搭建好,但不妨碍我玩本地呀,是不是! 工具: IDEA没了。 最近喜欢上了画脑图,所以最后上脑图。 1.map算子 一一对应型,比如我将一个List传入map,map中可以...

2017-03-19 20:43:00 122

转载 MapReduce总结,不考虑yarn的工作流程。

2017.3.15 MapReduc的基本学习,今天就要结束了,马上就要去看下面的章节了。想想还有些小激动呢。先画个脑图,一会贴上来。 转载于:https://my.osch...

2017-03-15 09:21:00 121

转载 学习MapReduce(七),对自定义序列化类型的聚合和排序--GroupingComparator

2017.3.14 终于快见到曙光了,MapReduce的一些基本概念和常见工具类就快要学完了,今天来到了GroupingComparator。这个类对应的应用场景是你有很多数据,但是你想知道这些数据中相同id,url,或者用户的某个行为或者数据的最大值,最小值或者一些其他的。这个时候...

2017-03-14 11:35:00 115

转载 学习MapReduce(六)自定义OutputFormat

2017.3.13,上午学习了InputFormat,下午有点虚度光阴了,并且感觉有点小累,具体代码就不贴了,因为我也没有敲,看看明天早上有没有精神吧。 OutputFormat看名就知道,它是用来规定文件输出规则的。它和InputFormat一样一样的,只是OutputFo...

2017-03-13 17:21:00 101

转载 学习MapReduce(五),自定义InputFormat类

2017.3.13继续学习MapReduce。昨天天学习了Partition的自定义,Combiner的自定义,InputFormat用了很长时间才算是马马虎虎有点感觉。默认使用的InputFormat类是底层提供的FileInputFormat,FileInputFormat使用的是...

2017-03-13 10:56:00 157

转载 学习MapReduce(四),分区Partition的使用

2017.3.12,MapReduce一共有Map阶段,Reduce阶段两个阶段,但是在这两个阶段中间,有Shuffle阶段,Shuffle阶段分很多阶段:比如Combiner,Partition等等,可以用这样的结构来说: Map -->Partition--...

2017-03-12 17:16:00 203

转载 学习MapReduce(三)

2017.3.12 更加深入了解MapReduce机制,学习使用Combiner类来对map的输出进行本地的合并。这里有个坑,真是,不自己写代码,不了解Combiner的机制啊。总结一句:Combiner只适合对map输出的结果集进行合并,合并成一个K,V值,这样可以大量减少shuff...

2017-03-12 14:34:00 90

转载 Python使用BeautifulSoup爬虫,和pyspider框架的使用

2017.3.11 爬虫在很早就接触过,BeautifulSoup也是用过,但是,每写次爬虫就有一种新的。 BeautifulSoup的CSS选择器,可以选择标签,class,id等等。现在使用bs4来写爬虫,都会先使用CSS选择器找到希望得到的数据的块,然后再根据情况使用find_all方...

2017-03-11 15:42:00 298

转载 学习MapReduce(二)

2017.3.10 深入了解MapReduce的各种工作机制,以及Yarn的工作流程,使用自己编写的序列化类》》》》》 今天看了一个小项目,内容如下: (案例)---->>>对手机上网流量统计结果,按总流量倒序排序<<<---------- 因为手里没...

2017-03-10 19:35:00 75

转载 学习MapReduce(一)

2017.3.9号,学习进度来到了MapReduce。通过查看文档,观看视频,说说自己对MapReduce的理解。 1.概念: MapReduce是Hadoop的计算框架。它和HDFS一样,都是Hadoop中不可缺少的一部分。它分为两个阶段,一个Map阶段,一个Reduce阶段。这...

2017-03-09 17:40:00 109

转载 在linux下使用shell脚本自动化完成hadoop集群搭建

学习hadoop时,发现如果在linux下搭建集群,一个一个的去配置,会感觉很累。所以写了一个自动话搭建集群的shell脚本 我使用的文件: jdk-7u75-linux-x64.gz; hadoop.tar.gz; 以及一个解压hadoop后,需要配置的文件的tar包 1.tar 实...

2017-03-08 18:27:00 740

转载 使用java写HDFS的操作代码

学习hadoop,学了hadoop的shell命令,诸如:hadoop fs -put | -mkdir | -cat | -ls 等等等等。这里不再说。这里主要说说,使用java API来操作HDFS。 一>>>配置JDK 略 二>>>配置...

2017-03-08 17:54:00 221

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除