自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

兀坐晴窗独饮茶

那些遗憾,或早或晚 会以特别的方式在你心中抚平 愿我们的遗憾,都在另一个时空得到和解

  • 博客(17)
  • 资源 (3)
  • 收藏
  • 关注

原创 【Jupyter】JupterNoteBook使用技巧-安装插件 更换主题 设置字体

1.下载插件下载插件pip install jupyter_nbextensions_configuratorpip install jupyter_contrib_nbextensions执行如下命令启用插件jupyter nbextensions_configurator enable --userjupyter contrib nbextension install -...

2019-05-27 11:29:35 3264

原创 【线性回归】-最小二乘法求一元线性回归公式推导及代码实现

1.导入依赖import numpy as npimport matplotlib.pyplot as plt2.画出线性图x = [2.8 ,2.9, 3.2 ,3.2, 3.4, 3.2, 3.3, 3.7, 3.9, 4.2]y = [25.3, 27.6, 29.4, 32.3, 34.1, 36.2, 35.3, 39.1, 42, 45]plt....

2019-05-21 21:11:32 16202 1

原创 【线性回归】- 梯度下降法计算线性回归参数

import numpy as npimport pandas as pdimport matplotlib.pyplot as plt1.读取数据train = np.genfromtxt('data.csv', delimiter=',')# 提取 train 中的两列数据 作为X , yX = train[:, 0]y = train[:, 1]# 画出散点图plt....

2019-05-31 21:48:12 2076 2

原创 【IDEA】- IDEA导入 mysql驱动包的时候 编译时可以找到驱动包 , 但是运行时无法找到

1.今天在写javaweb代码时遇到了一个很奇怪的问题 ,如上图 , 我明明导入了 驱动包 , 而且也设置了依赖范围 是 compile , 但是 , 编译时正常 , 运行时提示找不到驱动包 ???百度下 明明别人这样也是可以的 … 但是我的就不行然后 思来想去 , 感觉是不是 打包的时候没有添加进去然后我就把 lib 包设置 成了 resources 然后就可以了,…这里记录下...

2019-05-30 16:07:31 2750 5

原创 【Spark SQL】- 自定义结构的DataFrame和 Dataset

1.步骤分析读取的 people.txt 文件内容 Michael, 29 Andy, 30 Justin, 19 第一步 读取文件 创建RDD // 创建一个RDD JavaRDD<String> peopleRDD = spark.sparkContext() //...

2019-05-30 00:17:57 872

原创 【IDEA】- 进行Junit测试时 从 Resources读取文件 , 测试代码中读取的文件路径和实际的不一致

1 .今天在使用IDEA进行 Junit测试的时候 读取resources 中的文件 , 发现二者的路径不一致 我用的是相对路径 , 但都是相对于当前项目 然后才发现 , junit 测试时还需要在 test 目录下创建 resources 文件夹 , 这个平时没怎么注意 这里记下来如上图 : 两个都有 resources 文件夹...

2019-05-29 21:57:41 11712 1

原创 【问题解决】Hadoop 执行 MapReduce卡死 问题

运行MapReduce 卡死 , 截图如下1.如果是在 虚拟机配置的 Hadoop直接 编辑 yarn-site.xml 文件<property> <name>yarn.nodemanager.resource.memory-mb</name> <value>2048</value></property...

2019-05-29 19:07:02 3205 3

原创 【Spark SQL】- RDD DataFrame Dataset 三者的优缺点 , 三者之间的创建 , 以及相互转换

一.简单介绍1.RDDRDD 是一个懒执行(只有当遇到action算子时才会真正的开始执行)的不可变的的 可以支持 lambda 表达式 的并行数据集RDD 的最大优势就是简单 , 毕竟容易上手RDD 的 劣势在于 , 它是一个存在于 JVM 内存中的对象 , JVM 内存是计算机内存划分的一块空间 , 所以它受到 Gc (JVM 自己的垃圾处理器 , 用来回收一些不用的对象 , 但是 ...

2019-05-28 21:46:16 2715

原创 【完美解决】- 使用JavaApI 连接查询HBASE 出现 java.net.SocketTimeoutException: callTimeout=60000

1.报错org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=36, exceptions:Tue May 28 08:16:11 CST 2019, null,java.net.SocketTimeoutException: callTimeout=60000, callDuratio...

2019-05-28 08:32:08 12533 3

原创 【问题分析】 - 关于SparkSession使用createOrReplaceTempView 和 createGlobalTempView 创建临时表的区别的分析

1.官方文档之前在练习一些例子的时候看到官方文档对这二者的定义是这样的createOrReplaceTempView 的作用是创建一个临时的表 , 一旦创建这个表的会话关闭 , 这个表>也会立马消失 其他的SparkSession 不能共享应已经创建的临时表createGlobalTempView 创建一个全局的临时表 , 这个表的生命周期是 整个Spark应用程序 ,...

2019-05-27 15:57:20 13345

原创 【Spark SQL】- 读取数据并进行一些简单的查询

1.测试数据文件名 : people.json内容 :{"name":"Michael", "age":12}{"name":"Andy", "age":30}{"name":"Justin", "age":19}{"name":"kafak", "age":19}这里我是在IDEA本地运行的 代码 所以Master我设置的是 Local2 .代码创建SaprkSessi...

2019-05-26 15:30:32 2127

原创 【完美解决】- IDEA运行SparkSql代码 出现 java.lang.NoClassDefFoundError: org/apache/spark/sql/AnalysisException

1.报错java.lang.NoClassDefFoundError: org/apache/spark/sql/AnalysisException at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at ja...

2019-05-26 08:31:00 9561 3

原创 IDEA使用SparkSession读取Json文件报错 A master URL must be set in your configuration

1.错误场景今天在学习SparkSql的时候 看了Spark源码的例子 在本地运行SparkSession读取json文件的时候 , 报 A master URL must be set in your configuration 这个错误, 当时的代码如下public class SqlDemo01 { public static void main(String[] args)...

2019-05-25 16:00:55 1212

原创 【Linux】- Linux磁盘扩容

说明 : 因为之前在vm配置的centos磁盘太小, 所以想扩容磁盘,所以就去网上查了下,这里记录下以后便于查看 正常linux机器扩容也可参考1.扩容虚拟机上的扩容方法首先关机 而且删除所有的快照点击虚拟机设置点击扩展即可 设置自己想要的大小输入命令 : fdisk -l 查看新增磁盘输入 fdisk /dev/sda 进行创建分区输入m 查看帮助输入n 新增分区然...

2019-05-23 19:22:35 455

原创 Mysql学习笔记 - 在Centos7环境下离线安装Mysql

因为平时安装mysql 总会遇到各种各样的问题 , 要么在线安装下载速度极其慢,要么安装的时候遇到一些依赖问题, 解决了这个又出现那个问题 , 所以,这次总结出来一个比较靠谱的方法以后参考1.下载安装包点击 Mysql下载 在官方网站上下载这里我用的是linux 是centos7 mysql 版本是 5.7 所以 按照下图下载即可下载这个点击download 之后 , 直接点击...

2019-05-23 16:16:52 377

原创 【CDH】 Centos7离线安装CDH5.14.4以及常见问题解决

一.搭建之前的准备1.需要用到的工具包Cm 下载https://archive.cloudera.com/cm5/cm/5/CDH 下载http://archive.cloudera.com/cdh5/parcels/5.14.4/mysqlhttps://mirrors.tuna.tsinghua.edu.cn/mysql/yum/mysql57-community-el7/...

2019-05-22 20:25:38 3012 1

原创 01-树的概述

性质 : n 个节点的 树 有 n - 1 条边当前节点和其父节点组成一条边(每个节点都有父节点 , 除了根节点 ) 所以 要减去根节点的那个 , 所以 n 个节点有 n - 1 条边树的基本术语节点的度 : 当前节点的子树的个数 , 比如 A 节点 有三个子树 , 所以A 的度是 3 , 再举例 B 的子树有一个 , 那么它的度就是 1 树的度 : 节点度的最大数...

2019-05-11 14:27:25 269

机器学习个人笔记完整版v5.4-A4打印版.pdf

吴恩达机器学习的笔记 需要的可以下载

2019-07-11

CDH5.14离线搭建.md

CDH离线文档 下面的懒得写

2019-05-26

最新尚硅谷全套视频打包地址

尚硅谷的全套数据资源 有 java 前端 , 大数据 python 等等

2019-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除