自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 spark sql中collect_list + partition by的特殊用法

spark or hive中collect_list的特殊用法问题的提出解决思路实际上如何解决问题的提出hive或者spark中collect_list一般是用来做分组后的合并,翻一下CSDN上的博客,大部分都是写了它和group by连用的情况,而几乎没有和partition by连用的情况,因此本篇特定来讲collect_list + partition by的这个用法。会发现这个问题也...

2019-03-11 17:17:05 5293

原创 一道网易数据分析题的R解法

数据分析笔试

2017-07-02 23:48:37 810

原创 利用R实现简单的BP神经网络

BP神经网络学习 参考此篇视频数据挖掘:理论与算法 利用R来进行模拟参考以下这两篇文章使用R学习一个简单的神经网络和使用neuralant包拟合一个神经网络1.设置R的工作空间;读取原始数据> setwd("C:/Users/ywb/Desktop/BP神经网络/")> concrete<-read.csv("Concrete_Data.csv",header = T,fileEncod

2017-05-24 10:20:02 22561 19

原创 利用R(quantmod包实现均线)

本文参考此篇文章. 抓取股票数据方法参考此篇文章这篇文章1. 引入包> install.packages("quantmod")> require(quantmod)2. 均线计算移动均线就是求连续若干天的收盘价的算术平均。均线计算公式如下:MA(t,n)=∑j=t−ntI(j)/nMA(t,n)=\sum_{j=t-n}^{t}I(j)/n此公式

2017-05-09 13:19:39 2741

原创 一面的一些问题

最近面了腾讯的技术开发-运营开发方向,没让我做自我介绍,在此记录一下面了哪些问题:大部分问题是偏向数据结构的,其他还有一些就是计算机网络和Unix/Linux操作系统的。总而言之,基础还是要劳。各种数据结构的查找时间复杂度。堆和栈的区别,哈希散列函数以及如何回溯找到原来的值树,各种各样的树: B+、B-、红黑树实际使用的网络协议标准模型TCP/UDP的使用unix/linux主

2017-04-16 10:43:55 271

原创 Hadoop伪分布式环境搭建

HADOOP安装环境搭建-虚拟环境搭建(一)

2017-03-22 10:45:45 316

原创 初学hadoop之一:相似度计算(Jacard距离)

hadoop计算两行之间的Jacard距离

2016-05-28 14:28:21 2288

原创 初学hadoop之一:相似度计算(余弦距离)

简单的利用余弦计算txt文本中任意两行的相似度

2016-05-28 12:40:04 3736

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除