自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

livan1234的博客

大数据的应用不仅仅是技术的问题，但首先是技术的问题

01月

原创 HiveSQL函数优化原理

更多内容，欢迎观众公众号：livandata1、group by的计算原理：代码为：SELECT uid, SUM(COUNT) FROM logs GROUP BY uid;可以看到，group by本身不是全局变量，任务会被分到各个map中进行分组，然后再在reduce中聚合。默认设置了hive.map.aggr=true，所以会在mapper端先group by一次，最后再把结果merge起来，为了减少reducer处理的数据量。注意看explain的mode是不一样的。ma.

2021-01-21 10:28:05 975

原创基于Pyspark进行PCA主成分分析

了解更多内容，欢迎关注公众号：livandataPyspark是近段时间笔者接触到的比较高效的大数据处理工具，他的亮点是整理出了数据分析过程中两个最高频应用的工具：pandas的DataFrame包和sklearn包，能够方便的完成数据处理及模型构建两块内容，上一篇笔者整理了Pyspark的常规用法，本篇以一个案例的形式串联一下pyspark的内容：在小数据集中构建一个PCA模型是非常方便的，DataFrame构建完成后直接调用sklearn的PCA包即可，那么，在大数据集中是否也是这样方便呢？

2021-01-21 10:05:55 1768

frequency_linked.rar

主要是分析了用户访问页面的过程，借用啤酒尿布的思路，融合分布式处理思想，探索了用户访问页面之间的关联性

2019-06-12

movie_analysis.rar

附件为机器学习的应用案例，主要是应用了LSTM模型，对电影的信息做一个分类~

2019-06-12

网站分析三剑客

主要录入了网站分析实战、wireshark等三本资料，希望对大家有用处～

2019-03-28

python基础学习笔记

主要是在学习过程中做的一些笔记，供大家使用，也方便与大家讨论

2018-08-02

爬虫学习笔记

主要是将自己学习过的爬虫知识进行汇总，其中也有很多代码案例，供大家使用

2018-08-02

机器学习笔记

在学习机器学习的过程中，一路学习，一路笔记，形成了现在的一个文档，上传上来，供大家使用

2018-08-02

抖音问答弹窗代码

之前抖音上有跳出vb的弹窗代码，用来搞笑，我也实现了一下，感觉还比较不错，把他放到开机自启动的文件夹里，效果会很不错

2018-08-02

hadoop学习资料（一）

本文档是个人学习hadoop过程中做的笔记，文档（一）中含有1-16周的课程笔记，后面的内容会继续更新，希望以这样的方式激励自己学习，同时也分享信息给到更多想学习的同道人~

2018-07-30

机器学习常用算法汇总

本文为个人面试机器学习方面工作过程中，对机器学习中的常用算法做了一些汇总，个人认为非常全面，也希望对其他人有些帮助

2018-07-27

斯坦福机器学习讲义-中文版-黄海广

本资源为学习使用资源，作者写的非常详细，感谢作者的贡献~

2018-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除