自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (19)
  • 收藏
  • 关注

原创 pyspark线性回归

本节说明PySpark中的线性回归,代码操作主要按5个步骤组成。(1)读取数据:读取各类的数据源,构建分析用DataFrame。(2)探索性数据分析:用各pyspark API进行对数据浏览、统计,对数据进行理解。(3)特征转换:针对数据特征列的转换工作,以适应特征机器学习算法要求。(4)算法训练数据:构建机器学习算法对数据训练做出预测。(5)预测的准确性:查看训练预测结果的准确性。操作视频如下,全系列课程可免费在腾讯课堂上查看:个人大数据平台的搭建与学习实践-PySpark-学习视频教程-

2021-11-03 18:42:12 1525

原创 Spark SQL说明和操作

DataFrame关联密切的是Spark SQL技术,作为Spark中的4大模块之一,在DataFrame的基础上,将其注册为表,然后使用SQL语句进行读取处理。主要的处理步骤如下:操作的对应的视频如下,在腾讯课堂可免费查看所有的视频与下载简介资料个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com)PySpark的认识和使用1-创建DataFrame,对于Spark2使用SparkSession;对于Spark 1使用SQLContext.

2021-10-28 19:36:31 931

原创 Spark DataFrame操作

操作的对应的视频如下,在腾讯课堂可免费查看所有的视频与下载简介资料个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com)PySpark的认识和使用简介DataFrame在Spark 1.3时加入,其前身是Spark 1中的SQL Context、Streaming Context、Hive Context等对象,它类似于关系数据库中的表,是行和列进行组织数据。DataFrame相当是一张二维表,可以使用SparkSession中的各种函数来创建。按照

2021-10-27 19:12:41 920

原创 在Windows中安装PySpark环境

在Windows中安装PySpark环境安装Python可以选择安装官方版本的Python,或是Anaconda,对应的地址如下。下载地址Python:https://www.python.org/Anaconda: https://www.anaconda.com/download/#windowsMiniConda:https://docs.conda.io/en/latest/miniconda.html安装Java运行环境安装Java运行环境下载地址在线安装包: https

2021-08-09 16:04:30 1014 1

原创 使用Excel建立数据模型-MSBI

更多信息https://blue-shadow.top/关于上下文Power Pivot 中的公式可受到在数据透视表中应用的筛选器、表之间的关系以及公式中使用的筛选器的影响。可以通过“上下文”执行“动态分析”。行上下文Row context可被视为“当前行”,如果创建了计算列,则行上下文由每个单独行中的值以及与当前行相关的列中的值组成。还有一些函数(EARLIER 函数和EARLIES...

2020-02-18 14:33:55 11766

原创 PySpark-推荐系统-RecommenderSystem

书籍<<Python在大数据平台的应用>>更多信息请关注本书附书代码:附书代码Github工程:https://github.com/Shadow-Hunter-X推荐系统自动推荐内容或产品以个性化的方式向适当的用户提供,以增强整体体验。推荐系统在术语上非常强大使用海量的数据,学会理解偏好。对于PySpark中的“推荐系统”模块 pyspark.ml.recomme...

2020-02-16 14:53:18 1332

原创 大数据平台装载数据

更多信息https://blue-shadow.top/书籍<<Python在大数据平台的应用>>更多信息请关注本书附书代码:附书代码Github工程:https://github.com/Shadow-Hunter-X主要函数主要是这三个函数:parallelize ; textFile ; wholetextFiles其他的针对特定格式的文件:bin...

2020-02-14 14:39:00 675

pyspark前言说明

更多信息https://blue-shadow.top/书籍<<Python在大数据平台的应用>>更多信息请关注本书附书代码:附书代码Github工程:https://github.com/Shadow-Hunter-X主要内容说明主要按以下3个大点进行说明,也符合进行操作过程种的步骤,读取数据-操作数据-分析保存数据.总结起来就是:从哪里获取数据 ; 如何操作数...

2020-02-13 09:35:57 217

原创 Hive调优

更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-X技术#1:使用TEZHive可以使用Apache Tez执行引擎而不是Map-reduce引擎。不会详细介绍这里提到的使用Tez的许多好处; 相反,提出一个简单的建议:如果在您的环境中默认情况下没有打开它,请在Hive查询的开头使用Tez设置为...

2020-02-12 10:33:34 164

原创 Hive视图和索引

更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-X视图视图可以允许保存一个查询并像对待表一样对这个查询j进行操作,这是要给逻辑结构,因为它不会像一个表会存储数据,当一个查询引用一个视图时,这个视图说定义的查询语句和用户查询语句结合在一起,然后Hive指定查询计划,从逻辑上讲Hive先执行这...

2020-02-12 10:32:56 173

Hive数据操作

更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-X管理表中装载数据使用LOAD命令装载数据,分别可以从本地和HDFS上进行上传。使用的命令分别是 LOAD DATA LOCAL INPATH ‘file://local_path’LOAD DATA INPATH ‘HDFS://hdfs...

2020-02-11 22:54:05 394

Hive数据查询

更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-XSELECT子句针对复合类型列的查询(数组,字典,结构)含有复合类型列的样表:CREATE TABLE IF NOT EXISTS employees_t( name STRING COMMENT 'Employee nam...

2020-02-10 20:45:32 231

原创 Hive数据定义

更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-XHive数据定义HiveQL是Hive查询语言,作为ANSI SQL的一种方言。但是其还是有和关系数据库支持的SQL中有本质的差异。如:Hive不支持事务,且默认情况下不支持行级别插入,更新,删除操作。虽然可以在HiveQL中使用关联子句,但...

2020-02-10 13:45:47 195

原创 Hive数据类型和文件格式

更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-XHive数据类型和文件格式Hive 支持关系数据库中的大多数基本的数据类型,同时也支持在关系数据库中很少出现的三种 数据集合 类型。和大多数数据库相比,Hive具有一个独特的功能,就是对数据在文件中的编码方式具有相当大的灵活性,大多数据库对数...

2020-02-09 13:49:53 265

原创 python-snakebite

更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-XPython-Snakebite库Snakebite是由Spotify创建的python包, 它提供了python客户端库,运行以编程方式从Python应用程序访问HDFS。客户端库使用 protobuf 消息直接与 NameNode 通信。S...

2020-02-08 22:22:25 624

原创 Hortonworks-Data-Platform-大数据开发环境的使用

更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-XHortonworksHortonworks是国际领先的开发、推广和支持Apache Hadoop的商业供应商,它的Hadoop认证也是业界公认的Hadoop权威认证。其有多款产品,其中HDP为数据平台,目前最新版本的 HDP 为企业提供了新...

2020-02-08 14:18:17 3009 1

原创 Hive命令汇总说明

更多信息https://blue-shadow.top/附书代码Github工程:https://github.com/Shadow-Hunter-XHDFS命令HDFS命令大全Usage: hdfs [–config confdir] COMMAND where COMMAND is one of:命令说明dfs执行hadoop支持的文件系统命令run a f...

2020-02-08 13:27:42 453

转载 Google C++ Style

Google Style的C++编码规范试着看了一下Google Style的C++编码规范,先随手写了一个最简单的程序来试试Cpplit。代码如下————————————#include using namespace std;int main() {cout return 0;}————————————运行指令————————————

2012-12-05 12:29:23 537

bios设置学习资料

学习bios设置。。。。。。。。。。。。。。。。。。

2011-05-02

window api 参考大全

学windows编程的可以看看。。。。。。。。

2011-05-02

硬盘绝密资料,rar

介绍硬盘的构造,参数,及工作原理。学习的很好资料

2010-09-28

数据恢复分盘软件rar

能够恢复数据 并能够重新分盘的软件。。。。

2010-09-24

电脑爱好者dpf格式

电脑爱好者pdf版的。。。。。。。。。。

2010-09-24

文件暴力删除工具.rar

对于难以删除的顽固文件,可以试试这个工具,有些情况下还是很有用的

2010-09-18

破解入门提高篇.exe

适合刚学破解的朋友,也提高破解的能力。需奥的可以下载看看

2010-09-17

Linux内核图解.rar

学习Linux的内核,都是gif图片的表示。便于理解

2010-09-17

dos速成.chm格式

介绍了dos里的一些基本的语句与用法,内容有条理,易于学习

2010-09-17

BIOS认识与使用PDF格式

由此可以对BIOS的进行认识,并能学会对其进行设置

2010-09-16

电脑全知识208篇.exe

是可以自学的电脑知识,需要的朋友可以看看

2010-09-16

电脑维修手册.exe

有了这本书,在有空的时候看看,是很有帮助的

2010-09-16

用U盘安装系统rar

在光驱坏了的情况下,在安装系统就不是很容易了,但有了这个软件,在有一个U盘,据可以了

2010-09-16

高手箴言 电子书 作者:梁肇新

很好的一本书,是作者多年编程的感悟级经验的总结。

2010-09-15

计算机组成原理 白中英 第三版 答案

计算机组成原理doc格式,适合对计算机的组成的处理认识。

2010-09-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除