自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (6)
  • 问答 (1)
  • 收藏
  • 关注

原创 pip8.0升级到pip18.0出错的问题(已解决)

1.原来的升级命令:pip install --upgrade pip在升级这个大版本的时候可能会出错2.因此还原到原本的pip8.0版本python3 -m ensurepip3.然后直接通过:python3 -m pip install --upgrade pip命令来升级,可以正常执行,不需要考虑权限问题。4.查看:pip -Vsuccessfull ...

2018-08-29 17:10:35 2732

转载 linux安装python3 和 pip: command not found

转自:HTTPS://blog.csdn.net/u010510962/article/details/80690084在更新python3的时候会自动安装pip3,但是安装完成后,pip -V发现出错:命令未找到,找到好久,发现在建立软连接的时候路径写错了。总结一下安装python3和发现pip:command not found之后的思路。CentOS的安装python3参考链...

2018-08-29 16:58:17 28867

原创 pycharm中无法识别导入自写的模块的问题(已解决)

今天发现在同级目录下自己写的函数模块,却不能在同级目录下另一个文件中导入:1.打开“文件” - >新项目的设置... - >打开Console下的Python控制台,把选项(将源根添加到PYTHONPAT)点击勾选上:2.右键点击自己的工作空间,找下面的“Mark Directory As”选择“Source root”,就可以解决上面的问题了:  ...

2018-08-29 10:17:16 4706

原创 mysql 进入/etc/rc.d/init.d 下面未发现有mysqld解决方法

1.执行 whereis mysql :mysql: /usr/bin/mysql /usr/lib64/mysql /usr/include/mysql /usr/share/mysql /usr/share/man/man1/mysql.1.gz2.cd /usr/share/mysql 目录下查看存在mysql.server文件3.复制 mysql.serv...

2018-08-23 09:57:41 19493

转载 Spark之UDF、UDAF详解

对于一个大数据处理平台而言,倘若不能支持函数的扩展,确乎是不可想象的。Spark首先是一个开源框架,当我们发现一些函数具有通用的性质,自然可以考虑contribute给社区,直接加入到Spark的源代码中。我们欣喜地看到随着Spark版本的演化,确实涌现了越来越多对于数据分析师而言称得上是一柄柄利器的强大函数,例如博客文章《Spark 1.5 DataFrame API Highlights: D...

2018-08-17 17:08:55 2772

转载 Spark入门详解

一 Spark概述 1 11 什么是Spark 2 Spark特点 3 Spark的用户和用途 二 Spark集群安装 1 集群角色 2 机器准备 3 下载Spark安装包 4 配置SparkStandalone 5 配置Job History ServerStandalone 6 配置Spark HAStandalone 7 配置SparkYarn ...

2018-08-16 15:05:04 37789 6

转载 SparkCore 详解

一 RDD概念 1 RDD为什么会产生 2 RDD概述 21 什么是RDD 22 RDD的属性 3 13 RDD弹性 4 RDD特点 41 分区 42 只读 43 依赖 44 缓存 45 checkpoint 二 RDD编程 1 编程模型 2 22 创建RDD  一、 RDD概念1.1 RDD为什么会产生R...

2018-08-16 15:00:34 3332

转载 Scala中的常用特殊符号详解

=>(匿名函数)在Spark中函数也是一个对象可以赋值给一个变量。Spark的匿名函数定义格式:(形参列表) => {函数体}所以,=>的作用就是创建一个匿名函数实例。比如:(x:Int) => x +1 ,就等同于下面的Java方法:public int function(int x) { return x+1;}示例:cl...

2018-08-16 14:52:17 1506

转载 Scala超全详解

转自:【https://blog.csdn.net/c391183914/article/details/78647533?locationNum=2&fps=1】一 Scala安装与配置 1 安装 2 配置IDEA 二 Scala基础 1 Hello Scala 11 IDEA运行HelloScala程序 12 控制台运行HelloScala程序 ...

2018-08-16 14:49:52 11187 2

转载 Spark详解二

八、Spark 部署模式1、Local本地模式:运行于本地spark-shell --master local[2] (local[2]是说,执行Application需要用到CPU的2个核)2、Standalone独立模式:Spark自带的一种集群模式Spark自己管理集群资源,此时只需要将Hadoop的HDFS启动Master节点有master,Slave节点上有worke...

2018-08-10 10:41:01 269

转载 Spark详解一

SparkCore基础(一)学习Spark,首先要熟悉Scala,当然你说你会Python或者Java能不能玩Spark?能!但是不推荐,首推Scala,因为Scala非常便捷,而且Scala有非常好的交互式编程体验(当然了,在这里,Python也不差)。其次呢,我们要对Hadoop的MapReduce要是有一定的了解。不然,学习起来,是会稍微费点功夫。好,不扯这么多了,相关的故事啊,疑问啊可...

2018-08-10 10:39:45 1570

原创 CSDN博客排名前9的大牛们

2018-08-09 11:07:10 1995 2

原创 Chrome被桔梗网劫持问题,无需删除注册码之类的(已解决)

1、找到浏览器 快捷方式 或在 开始 里打开文件所在位置,右键打开属性; 2、找到Google Chrome的快捷方式Google Chrome.link打开后, 我们看到【目标】一栏中多了http://hao.faioo.com或者http://www.jiegeng.com/ 这个地址。这两个地址打开都是桔梗导航。我们把该地址删除 。若提示无法更改应用到Google Chrome....

2018-08-09 10:48:34 29375 5

转载 5 Tensorflow - 范数

矩阵进阶 - 范数作为快餐教程,我们尽可能多上代码,多介绍工具,少讲原理和公式。但是我也深知这样是无法讲清楚的,毕竟问题的复杂度摆在这里呢。与大家一起在Tensorflow探索一圈之后,我一定要写一个数学基础比较扎实的进一步教程。范数(norm)初识一般大学本科的《线性代数》教材中是不讲范数、广义逆这些知识的,需要学习《矩阵论》课程。但是很不幸,深度学习中会频繁用到。所以我们还是要有个...

2018-08-08 17:27:46 3438

转载 4 Tensorflow- 矩阵

矩阵矩阵的初始化矩阵因为元素更多,所以初始化函数更多了。光靠tf.linspace,tf.range之类的线性生成函数已经不够用了。可以通过先生成一个线性序列,然后再reshape成一个矩阵的方式来初始化。例:>>> g1 = tf.linspace(1.0,10.0,16)>>> g1<tf.Tensor 'LinSpace_6...

2018-08-08 17:25:31 3315

转载 3 Tensorflow - 向量

向量向量在编程语言中就是最常用的一维数组。 二维数组叫做矩阵,三维以上叫做张量。向量虽然简单,高效,且容易理解。但是与操作0维的标量数据毕竟还是不同的。比如向量经常用于表示一个序列,生成序列像标量一样一个一个手工写就不划算了。当然可以用循环来写。在向量中这样还好,如果是在矩阵或者是张量中就强烈建议不要用循环来做了。系统提供的函数一般都是经过高度优化的,而且可以使用GPU资源来进行加速。 ...

2018-08-08 17:22:14 885

转载 2 Tensorflow - 标量运算

Tensorflow的Tensor意为张量。一般如果是0维的数组,就是一个数据,我们称之为标是Scalar;1维的数组,称为向量Vector;2维的数组,称为矩阵Matrics;3维及以上的数组,称为张量Tensor。 在机器学习中,用途最广泛的是向量和矩阵的运算。这也是我们学习中的第一个难关。 不过,这一节我们先打标量的基础。上节我们学过,Tensorflow的运行需要一个Session...

2018-08-08 17:19:17 1554

转载 1 Tensorflow - 30行代码搞定手写识别

Tensorflow安装速成教程由于Python是跨平台的语言,所以在各系统上安装tensorflow都是一件相对比较容易的事情。GPU加速的事情我们后面再说。Linux平台安装tensorflow我们以Ubuntu 16.04版为例,首先安装python3和pip3。pip是python的包管理工具。sudo apt install python3sudo apt insta...

2018-08-08 17:15:41 444

转载 15道机器学习面试题

1、你会在时间序列数据集上使用什么交叉验证技术?是用k倍或LOOCV? 都不是。对于时间序列问题,k倍可能会很麻烦,因为第4年或第5年的一些模式有可能跟第3年的不同,而对数据集的重复采样会将分离这些趋势,而我们最终可能只是需要对过去几年的进行验证,这就不能用这种方法了。相反,我们可以采用如下所示的5倍正向链接策略:  fold 1 : training [1], test [2]  f...

2018-08-08 17:09:34 395

转载 一文详解循环神经网络的基本概念(代码版)

基本概念▌RNNRNN 的特点是利用序列的信息。之前我们介绍的神经网络假设所有的输入是相互独立的。但是对于许多任务来说这不是一个好的假设。如果你想预测一个句子的下一个词,知道之前的词是有帮助的。RNN 被成为递归的 (recurrent) 原因就是它会对一个序列的每一个元素执行同样的操作,并且之后的输出依赖于之前的计算。另外一种看待 RNN 的方法是可以认为它有一些“记忆”能捕获之前计算过...

2018-08-08 17:02:39 880

转载 Sublime Text 3 全程详细图文使用教程

一、 前言       使用Sublime Text 也有几个年头了,版本也从2升级到3了,但犹如寒天饮冰水,冷暖尽自知。最初也是不知道从何下手,满世界地查找资料,但能查阅到的资料,苦于它们的零碎、片面,不够系统和全面,所以一路走来,耗费了本人大量的时间和精力。所以蒙生了写这篇《Sublime Text 3 全程详细指南》,一来对自己的经验是一个总结,二来可以给初学者做个系统、全面的指引,让他...

2018-08-08 16:56:22 518

转载 Spark性能优化指南——基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更...

2018-08-08 10:54:09 449

转载 Spark性能优化指南——高级篇 (很详细)

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证...

2018-08-08 10:52:16 29720 9

原创 Spark的pom依赖

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/mave...

2018-08-01 17:46:42 9336 1

转载 sdtout、stderr详解

stdout(标准输出),输出方式是行缓冲。输出的字符会先存放在缓冲区,等按下回车键时才进行实际的I/O操作。 stderr(标准错误),是不带缓冲的,这使得出错信息可以直接尽快地显示出来。#include<stdio.h>int main(){ while(1) { fprintf(stdout,"Group"); fpri...

2018-08-01 17:41:14 32163 2

json paser 属于idea插件 用于解析json

懂得都懂 json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser 属于idea插件 用于解析json json paser

2022-04-22

适合hadoop2.9.* 以及 hadoop2.7.* 的winutils.exe_hadoop.dll 配置文件

分别取对应的文件夹下解压,之后将这两个文件替换到 hadoop-2.*.*/bin目录下即可 winutils.exe、hadoop.dll

2019-04-17

《Spark大数据商业实战三部曲:内核解密 商业案例 性能调优》2018.02出版

(限于文件1.3G大小,分享为云盘下载地址,请自行下载) 本书基于Spark2.2.0版本,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,以Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码,从一个动手实战案例入手,循序渐进地全面解析了Spark2.2新特性及Spark内核源码;中篇选取Spark开发中具有代表的经典学习案例,深入浅出地介绍,在案例中综合应用Spark的大数据技术;下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。

2019-04-16

spark-2.3.1-bin-hadoop2.9-without-hive.tgz

使用maven重新编译spark2.3.1源码,用以实现hive on spark

2019-02-22

spark-2.3.1-bin-hadoop2-without-hive.tgz

使用maven重新编译spark2.3.1源码,用以实现hive on spark

2019-01-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除