2019年05月_兀坐晴窗独饮茶

12月 11月 10月 09月 08月 07月 06月 05月 03月 02月 01月

原创【Jupyter】JupterNoteBook使用技巧-安装插件更换主题设置字体

1.下载插件下载插件pip install jupyter_nbextensions_configuratorpip install jupyter_contrib_nbextensions执行如下命令启用插件jupyter nbextensions_configurator enable --userjupyter contrib nbextension install -...

2019-05-27 11:29:35 3264

原创【线性回归】-最小二乘法求一元线性回归公式推导及代码实现

1.导入依赖import numpy as npimport matplotlib.pyplot as plt2.画出线性图x = [2.8 ,2.9, 3.2 ,3.2, 3.4, 3.2, 3.3, 3.7, 3.9, 4.2]y = [25.3, 27.6, 29.4, 32.3, 34.1, 36.2, 35.3, 39.1, 42, 45]plt....

2019-05-21 21:11:32 16202 1

原创【线性回归】- 梯度下降法计算线性回归参数

import numpy as npimport pandas as pdimport matplotlib.pyplot as plt1.读取数据train = np.genfromtxt('data.csv', delimiter=',')# 提取 train 中的两列数据作为X , yX = train[:, 0]y = train[:, 1]# 画出散点图plt....

2019-05-31 21:48:12 2076 2

原创【IDEA】- IDEA导入 mysql驱动包的时候编译时可以找到驱动包 , 但是运行时无法找到

1.今天在写javaweb代码时遇到了一个很奇怪的问题 ,如上图 , 我明明导入了驱动包 , 而且也设置了依赖范围是 compile , 但是 , 编译时正常 , 运行时提示找不到驱动包 ???百度下明明别人这样也是可以的 … 但是我的就不行然后思来想去 , 感觉是不是打包的时候没有添加进去然后我就把 lib 包设置成了 resources 然后就可以了,…这里记录下...

2019-05-30 16:07:31 2750 5

原创【Spark SQL】- 自定义结构的DataFrame和 Dataset

1.步骤分析读取的 people.txt 文件内容 Michael, 29 Andy, 30 Justin, 19 第一步读取文件创建RDD // 创建一个RDD JavaRDD<String> peopleRDD = spark.sparkContext() //...

2019-05-30 00:17:57 872

原创【IDEA】- 进行Junit测试时从 Resources读取文件 , 测试代码中读取的文件路径和实际的不一致

1 .今天在使用IDEA进行 Junit测试的时候读取resources 中的文件 , 发现二者的路径不一致我用的是相对路径 , 但都是相对于当前项目然后才发现 , junit 测试时还需要在 test 目录下创建 resources 文件夹 , 这个平时没怎么注意这里记下来如上图 : 两个都有 resources 文件夹...

2019-05-29 21:57:41 11712 1

原创【问题解决】Hadoop 执行 MapReduce卡死问题

运行MapReduce 卡死 , 截图如下1.如果是在虚拟机配置的 Hadoop直接编辑 yarn-site.xml 文件<property> <name>yarn.nodemanager.resource.memory-mb</name> <value>2048</value></property...

2019-05-29 19:07:02 3205 3

原创【Spark SQL】- RDD DataFrame Dataset 三者的优缺点 , 三者之间的创建 , 以及相互转换

一.简单介绍1.RDDRDD 是一个懒执行(只有当遇到action算子时才会真正的开始执行)的不可变的的可以支持 lambda 表达式的并行数据集RDD 的最大优势就是简单 , 毕竟容易上手RDD 的劣势在于 , 它是一个存在于 JVM 内存中的对象 , JVM 内存是计算机内存划分的一块空间 , 所以它受到 Gc (JVM 自己的垃圾处理器 , 用来回收一些不用的对象 , 但是 ...

2019-05-28 21:46:16 2715

原创【完美解决】- 使用JavaApI 连接查询HBASE 出现 java.net.SocketTimeoutException: callTimeout=60000

1.报错org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=36, exceptions:Tue May 28 08:16:11 CST 2019, null,java.net.SocketTimeoutException: callTimeout=60000, callDuratio...

2019-05-28 08:32:08 12533 3

原创【问题分析】 - 关于SparkSession使用createOrReplaceTempView 和 createGlobalTempView 创建临时表的区别的分析

1.官方文档之前在练习一些例子的时候看到官方文档对这二者的定义是这样的createOrReplaceTempView 的作用是创建一个临时的表 , 一旦创建这个表的会话关闭 , 这个表>也会立马消失其他的SparkSession 不能共享应已经创建的临时表createGlobalTempView 创建一个全局的临时表 , 这个表的生命周期是整个Spark应用程序 ,...

2019-05-27 15:57:20 13345

原创【Spark SQL】- 读取数据并进行一些简单的查询

1.测试数据文件名 : people.json内容 :{"name":"Michael", "age":12}{"name":"Andy", "age":30}{"name":"Justin", "age":19}{"name":"kafak", "age":19}这里我是在IDEA本地运行的代码所以Master我设置的是 Local2 .代码创建SaprkSessi...

2019-05-26 15:30:32 2127

原创【完美解决】- IDEA运行SparkSql代码出现 java.lang.NoClassDefFoundError: org/apache/spark/sql/AnalysisException

1.报错java.lang.NoClassDefFoundError: org/apache/spark/sql/AnalysisException at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at ja...

2019-05-26 08:31:00 9561 3

原创 IDEA使用SparkSession读取Json文件报错 A master URL must be set in your configuration

1.错误场景今天在学习SparkSql的时候看了Spark源码的例子在本地运行SparkSession读取json文件的时候 , 报 A master URL must be set in your configuration 这个错误, 当时的代码如下public class SqlDemo01 { public static void main(String[] args)...

2019-05-25 16:00:55 1212

原创【Linux】- Linux磁盘扩容

说明 : 因为之前在vm配置的centos磁盘太小, 所以想扩容磁盘,所以就去网上查了下,这里记录下以后便于查看正常linux机器扩容也可参考1.扩容虚拟机上的扩容方法首先关机而且删除所有的快照点击虚拟机设置点击扩展即可设置自己想要的大小输入命令 : fdisk -l 查看新增磁盘输入 fdisk /dev/sda 进行创建分区输入m 查看帮助输入n 新增分区然...

2019-05-23 19:22:35 455

原创 Mysql学习笔记 - 在Centos7环境下离线安装Mysql

因为平时安装mysql 总会遇到各种各样的问题 , 要么在线安装下载速度极其慢,要么安装的时候遇到一些依赖问题, 解决了这个又出现那个问题 , 所以,这次总结出来一个比较靠谱的方法以后参考1.下载安装包点击 Mysql下载在官方网站上下载这里我用的是linux 是centos7 mysql 版本是 5.7 所以按照下图下载即可下载这个点击download 之后 , 直接点击...

2019-05-23 16:16:52 377

原创【CDH】 Centos7离线安装CDH5.14.4以及常见问题解决

一.搭建之前的准备1.需要用到的工具包Cm 下载https://archive.cloudera.com/cm5/cm/5/CDH 下载http://archive.cloudera.com/cdh5/parcels/5.14.4/mysqlhttps://mirrors.tuna.tsinghua.edu.cn/mysql/yum/mysql57-community-el7/...

2019-05-22 20:25:38 3012 1

原创 01-树的概述

性质 : n 个节点的树有 n - 1 条边当前节点和其父节点组成一条边(每个节点都有父节点 , 除了根节点 ) 所以要减去根节点的那个 , 所以 n 个节点有 n - 1 条边树的基本术语节点的度 : 当前节点的子树的个数 , 比如 A 节点有三个子树 , 所以A 的度是 3 , 再举例 B 的子树有一个 , 那么它的度就是 1 树的度 : 节点度的最大数...

2019-05-11 14:27:25 269

机器学习个人笔记完整版v5.4-A4打印版.pdf

吴恩达机器学习的笔记需要的可以下载

2019-07-11

CDH5.14离线搭建.md

CDH离线文档下面的懒得写

2019-05-26

兀坐晴窗独饮茶