自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

livan1234的博客

大数据的应用不仅仅是技术的问题,但首先是技术的问题

  • 博客(2)
  • 资源 (10)
  • 收藏
  • 关注

原创 HiveSQL函数优化原理

更多内容,欢迎观众公众号:livandata1、group by的计算原理:代码为:SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;可以看到,group by本身不是全局变量,任务会被分到各个map中进行分组,然后再在reduce中聚合。默认设置了hive.map.aggr=true,所以会在mapper端先group by一次,最后再把结果merge起来,为了减少reducer处理的数据量。注意看explain的mode是不一样的。ma.

2021-01-21 10:28:05 975

原创 基于Pyspark进行PCA主成分分析

了解更多内容,欢迎关注公众号:livandataPyspark是近段时间笔者接触到的比较高效的大数据处理工具,他的亮点是整理出了数据分析过程中两个最高频应用的工具:pandas的DataFrame包和sklearn包,能够方便的完成数据处理及模型构建两块内容,上一篇笔者整理了Pyspark的常规用法,本篇以一个案例的形式串联一下pyspark的内容:在小数据集中构建一个PCA模型是非常方便的,DataFrame构建完成后直接调用sklearn的PCA包即可,那么,在大数据集中是否也是这样方便呢?

2021-01-21 10:05:55 1768

frequency_linked.rar

主要是分析了用户访问页面的过程,借用啤酒尿布的思路,融合分布式处理思想,探索了用户访问页面之间的关联性

2019-06-12

movie_analysis.rar

附件为机器学习的应用案例,主要是应用了LSTM模型,对电影的信息做一个分类~

2019-06-12

网站分析三剑客

主要录入了网站分析实战、wireshark等三本资料,希望对大家有用处~

2019-03-28

python基础学习笔记

主要是在学习过程中做的一些笔记,供大家使用,也方便与大家讨论

2018-08-02

爬虫学习笔记

主要是将自己学习过的爬虫知识进行汇总,其中也有很多代码案例,供大家使用

2018-08-02

机器学习笔记

在学习机器学习的过程中,一路学习,一路笔记,形成了现在的一个文档,上传上来,供大家使用

2018-08-02

抖音问答弹窗代码

之前抖音上有跳出vb的弹窗代码,用来搞笑,我也实现了一下,感觉还比较不错,把他放到开机自启动的文件夹里,效果会很不错

2018-08-02

hadoop学习资料(一)

本文档是个人学习hadoop过程中做的笔记,文档(一)中含有1-16周的课程笔记,后面的内容会继续更新,希望以这样的方式激励自己学习,同时也分享信息给到更多想学习的同道人~

2018-07-30

机器学习常用算法汇总

本文为个人面试机器学习方面工作过程中,对机器学习中的常用算法做了一些汇总,个人认为非常全面,也希望对其他人有些帮助

2018-07-27

斯坦福机器学习讲义-中文版-黄海广

本资源为学习使用资源,作者写的非常详细,感谢作者的贡献~

2018-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除