自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 解决kettle无法连接数据库资源库

手动能够连接数据库,但是连接数据库资源库时出现下图:请删除数据库资源库:在新建一个数据库资源库(与上一个同名也没有关系) 将数据库资源库与数据库连接对象关联成功, (这只是一种方式,或许还有其他的解决方案,这其中的原理不是很清楚 大概是 之前有建立过同名的数据库资源库 导致新建数据资源库连接不成功)...

2022-02-14 18:24:46 2954 1

原创 hive报错

有大神解答下疑问吗,hive走mr就出现org.apache.hadoop.fs.UnsupportedFileSystemException: No AbstractFileSystem for scheme: null 异常

2020-10-22 11:50:07 294

原创 spark向mysql写入数据

```scalapackage TestSparkimport java.sql.{Connection, DriverManager, PreparedStatement}import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WriteMysql { def main(args: Arr.

2020-10-07 15:18:27 1312

原创 spark访问mysql数据库

import java.sql.{DriverManager, ResultSet}import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}object Test105 { def main(args: Array[String]): Unit = { Logger.getLogger("org"

2020-10-06 15:15:07 217

原创 Spark sql自定义函数UTF/UTAF

自定义UTF函数 弱类型package SparkSqlimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.types.{DataType, DoubleTyp

2020-09-29 20:06:42 831

原创 matplotlib实现动画

原始动画绘制1.在绘制图形,图像过程中,可以借助绘制时间的控制,逐步显示绘制内容,进而达到图形,图像动态显示的效果用plot()和scatter()绘制正弦波和散点图,其中散点图是动态沿着正弦波绘制.实现代码如下(我的测试环境是IDIE,如果是Jupyter Notebook环境下,效果不是很明显)import matplotlib.pyplot as pltimport numpy as npfig = plt.figure()ax = fig.add_subplot(111)x = np

2020-09-22 14:24:24 2905

原创 Python中的三维坐标空间

在三维空间绘制点,线,面1.绘制点用scatter()散点绘制三维坐标点from matplotlib import pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Ddot1 = [[0, 0, 0], [1, 1, 1], [ 2, 2, 2], [2, 2, 3], [2, 2, 4]] # 得到五个点plt.figure() # 得到画面ax1 = plt.axes(projection='3d')ax1.set_xl

2020-09-21 14:22:07 10458

原创 Python可视化

*1、饼状图函数pie(x, explode=None, labels=None, colors=None, autopct=None, pctdistance=0.6, shadow=False, labeldistance=1.1, startangle=None, radius=None, counterclock=True, wedgeprops=None, textprops=None, center=(0, 0), frame=False, rotatelabels=False, , data

2020-09-18 13:42:23 215

原创 matplot学习之路三

1、绘制矩形(含正方形)绘制矩形函数Rectangle(xy, width, height, angle=0.0, kwargs),参数说明:(1)xy,指定左侧、底部的矩形绘制坐标,用元组表示(x,y),浮点型。(2)width,指定矩形的宽度,浮点型。(3)height,指定矩形的高度,浮点型。(4)angle,以xy坐标为基点逆时针方向旋转指定的角度(默认为0.0),单位符号°。(5) kwargs接受键值对参数,如alpha=0.8设置矩形背景色的透明度,linestyle=’ --’设

2020-09-17 14:09:08 481

原创 Matplotlib基础

**annotate()复杂标注annotate()提供了最为复杂,功能也最为强大的标注功能。plt.annotate(s, xy, *args, **kwargs),参数说明:(1)s为需要提供的注释信息,字符串型。(2)xy,(x,y)为注释箭头开始坐标。(3)*args,里的xytext=(x,y),为注释文本左边坐标。(4)**kwargs,主要指arrowprops参数,字典类型,包括如下键值对:width= 箭头宽度(以点为单位)、frac =箭头头部所占据的比例、headwidt

2020-09-15 15:09:06 274

原创 matplotlib.pyplot模块学习之路一

绘制第一张图上Matplotlib库提供了matplotlib.pyplot模块用于对图形的处理。对该模块的引用,统一使用如下格式要求:import matplotlib.pyplot as plt,后续在代码中发现plt别名,都是指向pyplot模块。**1)、plot(),绘制基于坐标值(x,y)的点、线函数plot(*args, fmt, data=None, **kwargs),参数使用说明:(1)*args,主要接受(x,y)坐标值,坐标可以是标量,x、y也可以是元组、列表、数组的值对。可

2020-09-14 13:16:53 418

原创 Python矩阵计算

1、构建矩阵*1)、集合形式建立矩阵asmatrix()函数。(1)数组形式建立矩阵函数matrix(data,dtype=None, copy=True),data为数值类型的集合对象,dtype指定输出矩阵的类型,copy=True进行深度拷贝建立全新的矩阵对象,copy=False仅建立基于集合对象的视图(深度拷贝、视图的原理见5.2节内容)。功能类似于mat()函数、import numpy as npa = np.array([[1,2,3],[4,5,6],[7,8,9]])

2020-09-12 13:51:19 5267

原创 numpy模块中高级统计函数

所谓高级函数,指普通生活中很少使用的,但是在数据高级分析、机器学习、科学研究中所需要使用的一类统计函数。1)、计算沿指定轴的元素个数的第q个百分位数,求观察值N函数percentile(a, q, axis=None),a为需要统计的集合对象,q为要计算的百分位数或百分位数序列(q的取值区间为[0,100])。返回q%范围内的观察值import numpy as npa1 = np.array([[10,0,9],[8,9,9],[9,10,9]]) #建立二维数组np.percentile(a

2020-09-11 14:50:05 807

原创 Spark Key-Value类型

1) groupByKey案例1.作用:groupByKey 对每一个进行操作,但只生成一个sequence2.需求: 创建一个pairRDD,将相同key对应值聚合到一个sequence中,并计算相同对应值的相加结果//创建一个RDD算子,指定分区数2val ListRDD: RDD[String] = sc.makeRDD(List("Abo", "Spark", "Hadoop", "Python", "Python", "Scala", "Spark", "Spark"), 2)

2020-09-10 15:00:40 509

原创 Python对接分割,基本索引

(1)数组对接❶vstack()函数实现数组的垂直对接,这里的v是英文vertical的首字母。import numpy as npc1 = np.array([[100,99,100],[98,99,97]])c2 = np.array([[88,88,87],[85,82,89]])np.vstack((c1,c2)) #垂直对接c1,c2两个数组array([[100, 99, 100],[ 98, 99, 97],[ 88, 88, 87],[ 85, 82,

2020-09-09 18:10:48 299

原创 spark的转换算子2

1)coalescedef coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]该函数用于将RDD进行重分区,使用HashPartitioner。第一个参数为重分区的数目,第二个为是否进行shuffle,默认为false;作用缩减分区数,用于大数据集过滤后,提高小数据集的执行效率。val ListRDD: RDD[Int] = context.makeRDD

2020-09-08 10:34:59 1651

原创 spark中的转换算子1

spark转换算子1举例:1)map算子:将原来 RDD 的每个数据项通过 map 中的用户自定义函数 f 映射转变为一个新的元素。源码中 map 算子相当于初始化一个 RDD, 新 RDD 叫做 MappedRDD(this, sc.clean(f))。package Testimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import scala.util.Randomob

2020-09-07 14:59:19 849

原创 基于spark开发wordcount案例

spark的WordCount原理:数据流分析:textFile(“in”):读取本地文件input文件夹数据;flatMap(.split(" ")):压平操作,按照空格分割符将一行数据映射成一个个单词;map((,1)):对每一个元素操作,将单词映射为元组;reduceByKey(+):按照key将值进行聚合,相加;collect:将数据收集到Driver端展示。package day0904import org.apache.spark.rdd.RDDimport org.apa

2020-09-05 17:38:43 424

原创 MapReduce程序寻找两个用户之间共同好友

需求分析从数据集中找出两个国家之间共同样式,这个其实跟我们两个用户之间寻找共同好友没有区别。测试数据集拿到这个数据进行分析:例如Australia:Cup Pack 对于Australia国家拥有的两个Cup Pack样式我要如何从其他国家找到这种样式呢?问题来了,想想我们MapReduce的核心就是分而治之,先分组,在聚合,既然这样我们用样式进行分组(与共同好友同理,判断一个用户是不是两个用户之间的共同好友,查看这个用户所有的好友列表,循环遍历,利用组合的方式,好友之间不同组合(这两好友不就拥有共

2020-09-01 14:48:57 431

原创 Hadoop中join操作

1.概述 **在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧**。reduce side join:假设要进行join的数据分别来自File1和File2.reduce side join是一种最简单的join方式,其主要思想如下:在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每

2020-08-28 15:25:08 1495

原创 Hadoop自定义outputformat输出文件格式

OutputFormat的使用场景:为了实现控制最终文件的输出路径和输出格式,可以自定义OutputFormat。    例如:要在一个MapReducer程序中根据数据的不同输出结果到不同目录,这类灵活的输出要求可以通过自定义OutputFormat来实现。  自定义OutputFormat大致步骤: (1)自定义一个类继承FileOutputFormat; (2)改写RecordWriter,具体改写输出数据的write()方法。 测试数据: 1). 实体类:package com.r

2020-08-27 13:42:28 862

原创 Python数组属性方法

**数组属性的使用:*数组对象提供了相应的属性,以读取所需要的属性值(1)、ndim属性,返回数组的维数import numpy as npar1 = np.array([[i for i in "abc"],[i for i in "def"],[i for i in "ghi"]]) #建立一个三行三列为字符型的数组ar1array([[‘a’, ‘b’, ‘c’],[‘d’, ‘e’, ‘f’],[‘g’, ‘h’, ‘i’]], dtype=’<U1’)ar1.n

2020-08-26 18:49:33 1436 1

原创 hadoop二次排序案例,二次排序后寻找key字段相同,value最大值再输出到文件中。

二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果。1). 保存文件第二字段与第四字段:package com.GroupOrder;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class OrderBean impl

2020-08-25 17:43:33 579

转载 html笔记

Table表格和div布局表格组成部分:标题 表头 主体 表尾table 定义一个表格caption 定义表格的标题thead 定义表头部分tbody 定义表格主体部分tfoot 定义表尾,一般来显示汇总信息tr 定义一行th、td 定义数据项(单元格)th一般用于表头,有加粗的样式;td 一般用于主体部分,没有加粗的样式td rowspan和colspan分别定义了单元格跨行的行数,跨列的列数cellspacing:表格之间的距离cellpadding:表格与数据间的距离表格组

2020-08-24 20:53:08 109

原创 全排序与自定义Partitioner分区案例

**全排序与自定义Partitioner分区案例:**由于之前做过Partitioner分区与全排列,那么把两个内容放在一起将会很好理解,话不多说上代码:1). 实现测试文件个字段的封装package com.Sort.Whole;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;pu

2020-08-24 17:07:23 296

原创 其他方式创建ndarray对象

1.arange()函数以指定步长累加产生指定范围有序元素的数组。函数使用格式,arange([start,] stop[, step,], dtype=None)import numpy as np#1.arange()函数h1 = np.arange(5) #默认情况下 start=0,默认步长step为1h1array([0, 1, 2, 3, 4])h2 = np.arange(0,5) #默认步长step为1h2array([0, 1, 2, 3, 4])h3 =

2020-08-23 18:58:26 1061 1

原创 创建ndarray对象的方式

Python创建数组的方式#使用array建立数组import numpy as npa1 = np.array([i for i in range(6)]) #参数为列表a1 #执行结果一维数组array([0, 1, 2, 3, 4, 5])#通过type函数确定a1对象的类型 type(a1) #a1是ndarray对象(数组对象)numpy.ndarray#使用元组创建数组a2 = np.array((0,1,2,3,4,5)) #参数

2020-08-23 17:35:16 1931 1

原创 利用pandas进行数据提取以及写入

pandas处理简单的数据1)读取源数据文件2) 查看数据集有无缺失值发现Year与Publisher这两列分别有271与58个缺失值,以上数据对我们排列案例没有太大关系,我们只需要该数据集中的其他列.按照Genre分组,其他两列聚合添加新的一列,值为df3对象Na_Sales,Other_Sale的和,并将新的列命名为sum_Sales写入文件中,并且文件不保留df3索引pandas模块函数真是多姿多彩,不亏是python处理数据很好的第三方库,必须支持...

2020-08-23 16:52:13 1409

原创 一个简单的mapreduce程序全排列

全排序其实就是全局排序,就是使得所有数据按序排列输出,和我们平常做的给一个数组排序没有什么区别,唯一的区别就是数据量的不同,这里涉及的数据量是TB级别的,这就意味着不可能简单地把数据加载进内存进行排序,需要用到分布式计算,所以就产生了Hadoop的全排序,Hadoop的全排序在实际应用有着重要的作用。1)准备数据(数据已经进行过分组聚合操作):2)封装文件各字段:package com.Sort.Whole;import org.apache.hadoop.io.WritableComparab

2020-08-23 15:32:22 926

原创 自定义Partitioner分区

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2020-08-22 16:43:00 1610 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除