Dapan同学

转学大数据了,有些文章鸽了,不好意思!

Hive中,row_number() over(partition by) 和group by的区别

row_number() over (partition by) 和 group by 的区别 现在假设Score表中有如下数据: Name Class Grade Zhang San A 80 Li Si B 83 Wang Wu A 88 Zhao Liu C 92...

2019-02-20 15:31:16

阅读数 392

评论数 0

Spark踩坑:JsonMappingException: Incompatible Jackson version: 2.9.6

在Spark2中,如果使用了kafka库,则很容易产生如下错误: Exception in thread "main" java.lang.ExceptionInInitializerError at org.apache.spark.stream...

2018-07-30 11:15:39

阅读数 2278

评论数 1

Spark踩坑:NoClassDefFoundError: org/apache/spark/streaming/dstream/DStream

在IDEA下,使用Maven构建Spark项目时,总是容易报如下错误: java.lang.NoClassDefFoundError: org/apache/spark/streaming/dstream/DStream at java.lang.Class.getDecla...

2018-07-30 10:51:01

阅读数 462

评论数 0

IDEA下添加Hadoop2依赖

这几天在学习Hadoop,下载的是2.9.0的版本。期间,遇到了很多问题,其中有一个问题是在Intellij IDEA中配置Maven依赖项时遇到的。在网上的教程里,配置方式如下: <dependencies> <de...

2018-07-18 12:58:33

阅读数 603

评论数 0

自编码器简介

作用 AutoEncoder,中文译名自编码器。主要用于特征提取,可以理解为一种基于神经网络的压缩、降维算法,和PCA等类似。自编码器为一种有损压缩算法,通过压缩(编码)获得数据等抽象特征,并可以通过解压缩(解码),将抽象特征尽可能地还原成原始数据。 因此,根据原PPT中对自编码器“学习用户高...

2018-07-18 12:56:09

阅读数 505

评论数 0

使用SSD模型检测自定目标

SSD简介 SSD(Single Shot MultiBox Detector)是深度学习领域一种新型的目标检测算法。在过去的几次国际比赛中,SSD在速度和准确性方面均取得优异成绩,与其他检测算法一度拉开很大差距。 SSD的算法流程大体可以概括为产生候选区域、框选、判断、过滤几个步骤。其中,产...

2018-07-18 12:55:38

阅读数 1227

评论数 1

Spark算子之combineByKey

学习combineByKey算子的时候,对它的3个参数很是疑惑。经过一番实际练习,算是基本弄明白了,因此记录一下。 combineByKey是针对不同partition进行操作的。它的第一个参数用于数据初始化(后面着重讲),第二个是针对一个partition的combine操作函数,第三个是在所...

2018-07-18 12:54:40

阅读数 408

评论数 0

Hadoop2中MR在上Yarn运行的流程

最近一直在补充Hadoop相关知识,发现网上相关知识很多,但是也比较杂,因此希望把自己的理解记录下来,方便日后查阅。首先要说明的是,Hadoop2和Hadoop1中,MapReduce程序的运行流程是不相同的。之前有关JobTracker的文章,讲述的主要是Hadoop1中的知识点。 接下来,我...

2018-07-18 12:53:56

阅读数 435

评论数 0

使用虚拟机配置分布式Ubuntu

有时候为了稳定高效,同时减少内存占用,我们需要使用没有GUI界面的Linux系统。例如,我在学习Hadoop的过程中,希望配置完全分布式环境,但是买不起价格高昂的VPS,因此虚拟机成了一个很好的选择。下面,我将结合自己的实际操作,向大家简要介绍一下VirtualBox下Ubuntu Server的...

2018-07-18 12:53:23

阅读数 187

评论数 1

ZooKeeper的安装、配置和使用

这大概是我第一次以教程的形式写博文。但是准确地说,这更应该是一次学习笔记。希望在自己学习的过程中,能够帮助他人。这篇博文的内容是我在学习ZooKeeper的同时撰写的,因此并不是很深入,适合和我一样希望学习ZooKeeper的同学。另外,如果你在文章中发现了错误,欢迎在评论中指正。 下载和安...

2018-07-18 12:50:39

阅读数 172

评论数 0

Linux下更换pip镜像源

由于服务器距离太远,以及不可描述的原因,pip从国外服务器下载whl包的速度太慢,有时候甚至根本就无法下载。这时候就有必要切换到国内源服务器了。之前我上网查资料,发现很多资料中关于Linux系统下切换源的描述不是很准确,可能随着pip版本的升级,切换的方式改变了。因此在这里重新记录一下。 首先到...

2018-07-18 12:49:36

阅读数 2137

评论数 1

Maven中配置Hadoop 2.x版本

这几天在学习Hadoop,下载的是2.9.0的版本。期间,遇到了很多问题,其中有一个问题是在Intellij IDEA中配置Maven依赖项时遇到的。在网上的教程里,配置方式如下: <dependencies> <de...

2018-02-21 22:23:55

阅读数 1233

评论数 1

Mtcnn人脸检测实践

放寒假了,闲来无事就开始捣鼓人脸识别了。这次看了一篇2016年的论文,算是比较新的了。论文提到一种名为“基于多任务级联卷积神经网络进行人脸检测和对齐”的算法,英文名 Joint Face Detection and Alignment using Multi-task Cascaded Convo...

2018-02-21 22:21:37

阅读数 5213

评论数 3

机器学习作业9 - 自动确定k值的k均值聚类

自动确定k值的k均值聚类说实话刚刚看到这个作业我是懵逼的。k均值本身不难,可是要自动确定k值,我就不知所措了。于是脑补了无数种方法,最后决定求助度娘。研究了几个小时以后,渐渐有了思路,于是一步步展开,写一下自己的想法吧。

2017-12-08 22:36:40

阅读数 590

评论数 0

机器学习作业8 - AdaBoost

AdaBoostUmm…这次作业写了很长时间,走了不少弯路,其实算法难度并不大,但是我一开始数据集选的比较奇葩,所以效果一直非常差,在50%左右徘徊,真是十分的绝望呀……后来换了个数据集,效果稍微好了点,超过了75%,还算能看吧。

2017-12-04 00:14:18

阅读数 300

评论数 0

机器学习作业7 - 随机森林

随机森林首先吐槽下,这个星期作业实在是太多了……一周两个机器学习项目实在伤不起啊!!!所以这一次的随机森林我决定放点水,决策树部分就不自己写了,还是调库吧……当然随机森林部分还是得自己写的。事实上,如果决策树部分直接调库的话,随机森林可能是实现起来最简单的机器学习算法了

2017-12-02 11:23:28

阅读数 591

评论数 0

机器学习作业6 - EM算法和朴素贝叶斯

EM算法和朴素贝叶斯上节课老师讲解了EM算法,然后要求我们使用EM算法完成一个低配版的朴素贝叶斯分类器。说实话网上的EM算法介绍的都比较抽象,对于数学并不是很好的我来说,看起来遇到了很大的障碍。对于EM算法的详细介绍可以参考 emma_zhang 的博文 机器学习之EM算法,下面我简单讲一下自己对...

2017-11-28 13:58:42

阅读数 1952

评论数 0

机器学习作业5 - 使用SkLearn中的SVM进行学习

使用SkLearn中的SVM进行学习这次的作业还是很简单的。可能是由于SVM实现起来难度太大吧,老师就不要求我们实现了,直接用库就好啦!这酸爽~

2017-10-24 21:11:11

阅读数 439

评论数 0

机器学习作业4 - 决策树和剪枝

决策树和两种剪枝方式(预剪枝和后剪枝)首先吐槽一下本次作业的残暴!手写决策树也就算了,还要剪枝!还要两种剪枝方式!!!写的我手残眼花,不过还好,勉强达到了题目要求。不过可以说明的是,我的代码肯定有需要改进的地方,甚至可能存在Bug,所以大家如果在看的时候发现任何问题,都可以通过评论或者私信指出,在...

2017-10-19 10:20:05

阅读数 1555

评论数 3

机器学习作业3 - 中心化的作用

中心化的作用这次作业是周志华《机器学习》中习题10.3,比较简单,就是一道问答题:在对高维数据进行降维的时候,为什么往往需要中心化呢?当然这个问题随便百度一下就一大堆答案啦,在这里放上我的理解,如有不对之处,还请指教。

2017-10-12 19:51:06

阅读数 1651

评论数 1

提示
确定要删除当前文章?
取消 删除