![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 82
胖胖的飞象
原飞奔的石头博主
展开
-
Pandas常用数据预处理方法及指令
1.前言前一段时间,在小伙伴的怂恿下参加了京东的Jdata数据大赛(并以剪刀石头布的方式决定的组长,草率!不过非常感谢小伙伴们对我的信任,还有我们一起学习的热情让我一下恢复了对学习的xing趣了呢),作为一名小白,抱着学习的心态去的,所谓的万事开头难是真的,从来没接触过这种比赛或工作的我也是一头雾水,以前没上过数据处理和挖掘的课程,不知从何下手,就是在这样一穷二白的情况原创 2018-01-23 13:21:11 · 12343 阅读 · 0 评论 -
快速部署vmware11下centos7虚拟机的Spark 2.2.0集群(附通俗解释,小白也可上手!)
最近想要学习一下spark,买了本书来学习,但未曾想到是如此不靠谱,作者非常不负责任,于是在查阅大量前辈记录的文档结合我自己的实践后形成了这篇博客。欢迎各位童鞋交流和指教!注:本文部署的standalone模式的Spark-----------------------------------------------------------------------------------...原创 2017-11-10 21:54:55 · 1106 阅读 · 0 评论 -
PCA原理学习及实战应用
欢迎各位童鞋交流和指教!1. 前言在接触到了文本的分布式表示(或称嵌入式、向量)后,发现深入学习和理解主成分分析十分有必要,主成分分析(Principal Component Analysis,PCA)可以帮助我们把数据中,相对不重要、或者说对于数据没有很强的区分能力的维度去掉,将数据映射到一个有着主要能区分数据、数据的相关性不大的维度空间里。这是一个非常经典和美妙的数据分析方法。...原创 2018-01-23 13:02:39 · 683 阅读 · 0 评论 -
【笔记】——从0到1,走进Data Science的Kaggle比赛
1 引言:Kaggle在Data Science竞赛在美国公认度最高的。公司将数据交给kaggle组织比赛。有排名、有奖金,有工作的人、以打比赛为生的人、有学生,为奖金、奖牌(金银铜)、学习锻炼。2 有不同级别的比赛:入门级(getting started)、playground(只为解决一个问题)、奖金制(recruitment为了招聘,featured主要的比赛、数量较多,re...原创 2019-05-25 15:35:33 · 519 阅读 · 0 评论 -
基于Win10 + Anaconda3 (Py3.6) + Tensorflow 1.12.2-gpu + Keras2.2.4的深度学习环境→【快速搭建指南】
1 安装Anaconda3(python3.6版本)Anaconda与python版本的对应关系如下:由于tensorflow等包的要求,我们选取python版本为3.6.5的anaconda,即Anaconda3-5.2.0-Windows-x86_64.exe,下载地址为:https://repo.anaconda.com/archive/然后双击安装即可,记得需要选择将pat...原创 2019-05-29 11:33:24 · 2404 阅读 · 0 评论