自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 yum命令安装rpm包之后保留rpm包

yum 默认情况下,升级或者安装后,会删除下载的rpm包。 我们也可以如下设置升级后不删除下载的rpm包 vim/etc/yum.conf 将 keepcache=0 修改为 keepcache=1

2020-05-24 18:16:31 30 0

原创 pyspark单词计数

一、shell模式 # 输入数据 data = ["hello", "world", "hello", "world"] # 将collection的data转为spark中的rdd并进行操作 rdd = sc.pa...

2020-05-15 01:21:21 69 0

原创 spark单词计数

一、spark-shell模式 注:单词文件上传至hdfs,参考博文: https://blog.csdn.net/u010916338/article/details/81102346?ops_request_misc=%257B%2522request%255Fid%2522%253A%252...

2020-05-15 00:28:15 61 0

原创 TypeError: namedtuple() missing 3 required keyword-only arguments: verbose, rename, and module

spark不支持python3.6 (1)卸载anaconda,参考博文:https://blog.csdn.net/u010916338/article/details/106108146 (2)带有python3.5的安装包下载地址: 链接:https://pan.baidu.com/s/17...

2020-05-13 22:22:11 138 0

原创 Linux卸载anaconda

一、找到安装Anaconda的目录,删除其文件夹 sudo rm -rf path/anaconda3 二、修改配置文件 (1)vim ~/.bashrc (2)删除语句,或者注释语句export PATH=path/anaconda3/bin:PATH(3)vim/etc/profile(4)...

2020-05-13 22:17:34 54 0

原创 Linux安装anaconda

一、下载anaconda3.5.2 历史版本地址: https://repo.continuum.io/archive/ 百度网盘地址: 链接:https://pan.baidu.com/s/1QWb6uhsTx6QZtwEdEUk8_g 提取码:x4fc 二、安装anaconda3.5.2 (1...

2020-05-13 17:05:16 71 0

原创 【seaborn】(十)sns.facetgrid

一、sns.facetgrid

2020-05-11 22:17:02 36 0

原创 【seaborn】(九)sns.factorplot

一、sns.factorplot

2020-05-11 22:11:38 47 0

原创 【seaborn】(八)条形图

一、sns.barplot() 1.1 加载数据 1.2 x, y, data:x轴数据,y轴数据,dataframe数据 1.3 hue:指定列名,按照列名类别,标记不同颜色

2020-05-11 21:52:59 42 0

原创 【seaborn】(七)盒图

一、sns.boxplot() IQR即统计学概念四分位距,第一/四分位与第三/四分位之间的距离 N = 1.5IQR 如果一个值>Q3+N或 < Q1-N,则为离群点 1.1 x, y, data:x轴数据,y轴数据,dataframe数据 1.2 hue:指定列名,按照列名类...

2020-05-11 21:42:57 59 0

原创 【seaborn】(六)回归分析

文章目录一、sns.regplot()1.1 加载数据1.2 x, y, data:x轴数据,y轴数据,dataframe数据1.3 x_jtter 同一个位置上的点沿着x轴散开1.4 color颜色1.5 maker点类型 一、sns.regplot() 1.1 加载数据 1.2 x, y, ...

2020-05-11 21:09:10 31 0

原创 hive表和kudu表删除指定数据

1,hive表删除数据 1.1 分区表 1.1.1 删除具体partition alter table table_name drop partition(partiton_name='xxx')) 1.1.2删除具体partition的部分数据 INSERT...

2020-05-11 12:18:47 76 0

原创 【seaborn】(五)联合分布图

一、单变量分析 单变量分析就是直方图 参考博文:https://blog.csdn.net/u010916338/article/details/106036759 二、多变量分析图 2.1 散点图 参考博文:https://blog.csdn.net/u010916338/article/det...

2020-05-10 17:38:09 51 0

原创 【seaborn】(四)直方图

一、sns.distplot() seaborn.distplot(a, bins=None, hist=True, kde=True, rug=False, fit=None, hist_kws=None, kde_kws=None, rug_kws=None, fit_kws=None, co...

2020-05-10 16:21:34 57 0

原创 【seaborn】(一)基本设置

文章目录一、主题风格1.1 sns.set()默认主题风格1.2 5种主题风格1.2.1 darkgrid黑色背景有网格线1.2.2 whitegrid白色背景有网格线1.2.3 dark黑色背景无网格线1.2.4 dark黑色背景无网格线1.2.5 ticks带有刻度线2.2、子图设置不同...

2020-05-10 15:17:29 47 0

原创 【seaborn】(三)散点图

一、sns.scatterplot() seaborn.scatterplot(x=None, y=None, hue=None, style=None, size=None, data=None, palette=None, hue_order=None, hue_norm=None, size...

2020-05-09 16:58:40 68 0

原创 【seaborn】(二)折线图

文章目录一、sns.plot()1.1 加载数据1.2 data1.3 x, y1.4 hue 基于某列的类别将y分成多条线,并分配不同线条颜色1.5 style基于某列的类别将y分成多条线,并分配不同线条颜色1.6 size 基于某列的类别将y分成多条线,并分配不同线条粗细程度1.7 marke...

2020-05-08 13:54:18 140 0

原创 【Matplotlib】(十一)3D图

文章目录一、3种方式拿到3D图像轴域1.1 fig.gca获取轴域句柄1.2 fig.add_subplot创建子图1.3 Axes3D对象构建二、折线图 一、3种方式拿到3D图像轴域 1.1 fig.gca获取轴域句柄 import matplotlib.pyplot as plt plt.f...

2020-04-30 15:25:22 53 0

原创 【word】标题绑定列表

文章目录一、标题二、列表三、字体分别在序号和标题中设置 一、标题 一般情况下,都会去点标题一,标题二 但是怎么才能让它带上序号呢? 二、列表 默认的标题并没有序号 自己定义一个列表(当然你也可以选库里自带的列表) 三、字体分别在序号和标题中设置 ...

2020-04-27 17:36:59 39 0

原创 【Matplotlib】(十)df.plot

一、介绍 使用DataFrame的plot方法绘制图像会按照数据的每一列绘制一条曲线,默认按照列columns的名称在适当的位置展示图例,比matplotlib绘制节省时间,且DataFrame格式的数据更规范,方便向量化及计算。 二、df.plot() DataFrame.plot(x=None...

2020-04-24 16:09:55 168 0

原创 【Matplotlib】(九)饼图

一、plt.pie饼图 1.1 x:数据 (1)list类型 (2)自动根据数字大小计算占比,类似相对权重,参考博文:https://blog.csdn.net/u010916338/article/details/105713202 1.2 labels:标签 1.3 autopct:自...

2020-04-23 23:57:12 111 0

原创 【python基础】抽样

一、random.choice()随机返回一个数 (1)choice() 方法返回一个列表,元组或字符串的随机项。 二、random.choices()随机返回指定个数数据 2.1 population:数据。 2.2 k:选取次数(抽样次数可以大于总体数据个数) 2.3 weights:...

2020-04-23 20:28:43 107 0

原创 【Matplotlib】(八)散点图

一、plt.scatter() matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None,...

2020-04-23 17:07:18 68 0

原创 【Matplotlib】(七)箱线图

一、plt.boxplot箱线图 (1)它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max) (2)IQR = Q3-Q1 (3)min = Q1 - 1.5*IQR (4)max = Q3 + 1.5*IQR (5) plt....

2020-04-23 11:46:58 91 0

原创 【Matplotlib】(六)子图

一、plt.subplot 1.1 nrows, ncols, index:一共几行、一共几列,第几个图 (1)plt.subplot(2, 3, 5) 和 plt.subplot(235) 是一样一样的 (2)所有的数字不能超过10 (3)plt.subplot其实是对plt.axes轴域的包...

2020-04-21 22:35:38 88 0

原创 【Matplotlib】(五)直方图(频数统计图)

一、plt.hist直方图 1.1 x:随机变量取值 注:y轴自动计算随机变量出现的次数 1.2 bins:分组个数 注:指定分组个数,系统自动等距离分组 1.3 color:直方图颜色 1.4 range:设定随机变量统计范围 1.5 bottom:设定y轴的起始位置 注:本例...

2020-04-21 17:25:14 87 0

原创 【Matplotlib】(二)figure与axes与axis的区别

一、plt.figure图片/画板 (1)类似真实的画布,后续所有操作都在画布上进行。 (2)它就是一幅画,一笔不画也是一幅画,画满还是一幅画。 1.1 num图片编号 (1)num类似图片的编号,画布的编号。 (2)允许创建多个figure画图板,但是具体操作遵循就近原则(操作是在最近一...

2020-04-21 00:25:50 111 0

原创 【Matplotlib】(四)条形图(柱状图)

一、画数据 1.1 plt.bar(x, y)竖着画 1.2 plt.barh(x, y)横着画 1.3 plt.bar(color=)设置柱状图颜色 二、plt.subplots()画子图 三、plt.axhline()正负柱状图之间加横线 四、多柱状比较 ...

2020-04-15 22:15:22 59 0

原创 【Matplotlib】(一)基本设置

一、省略plt.show() #整个ipynb执行一次就行 %matplotlib inline

2020-04-15 21:27:03 31 0

原创 【Matplotlib】(三)折线图

一、画数据 1.1 plt.plot(x, y) 1.2 plt.plot(y) 当只有y而x缺省时,x默认为range(len(y)) 二、线条 2.1 线条类型 2.2 plt.plot(color=)线条颜色 2.3 plt.plot(linewidth=)线条宽度 np.linsp...

2020-04-15 21:12:27 85 0

原创 【pandas】(七)df.apply(lambda表达式)

一、pandas.apply() 1.1遍历DataFrame的元素(一行数据或者一列数据) dataframe.apply(function,axis)对一行或一列做出一些操作(axis=1遍历行,axis=0遍历列) 1.1.1 行遍历 1.1.2 列遍历 默认列遍历 1.2遍历Serie...

2020-04-13 19:12:21 730 0

原创 【pandas】(六)增删改查

一、增加数据 1.1 增加一行 1.2 增加一列 1.3 pd.concat()拼接数据 注:pd.concat()既可以增加行,又可以增加列 pd.concat(objs, axis=0, join=‘outer’, join_axes=None, ignore_index=False, ...

2020-04-10 10:49:20 64 0

原创 【pandas】(四)索引

文章目录一、行索引1.1、df.loc(),用label值定位1.1.1 定位一个索引1.1.2 定位多个索引二、列索引2.1 df[],用label值定位2.1.1 定位一个索引2.1.2 定位多个索引三、行列组合索引3.1、df.iloc(),用position位置定位3.1.1 定位行3.1...

2020-04-09 22:50:38 51 0

原创 【pandas】(五)统计

一、描述性统计 1.1 单个统计量统计

2020-04-09 11:23:45 39 0

原创 绘图设置坐标显示上下限

plt.ylim() https://blog.csdn.net/The_Time_Runner/article/details/89928057

2020-04-08 17:13:26 64 0

原创 【pandas】(二)读写数据

一、读数据 以kaggle竞赛,Titanic数据为例 1.1pandas.read_csv pandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', n...

2020-04-07 23:31:31 45 0

原创 【pandas】(一)构造数据

一、通过其它数据结构转换 1.1 通过list转换 1.2 通过numpy的array转换 注:既然很多数据可以从numpy的array转换过来,pandas的数据构造就可以参照numpy的数据构造, 参考博文:https://blog.csdn.net/u010916338/arti...

2020-04-07 19:27:29 71 0

原创 【pandas】(三)基本操作

一,显示数据 1.1 df.head()显示前几条数据 1.2 df.tail()显示前几条数据 1.3 df全部显示 二,help帮助函数,查看函数用法 注:函数必须带上包名 三、查看dataframe 3.1 df.info()查看数据整体情况 3.2df....

2020-04-07 17:24:22 112 0

原创 【numpy】(四)读写数据

一,造数据 二、np.loadtxt()读取数据 skiprows:去掉几行 delimiter = ',':分隔符 usecols = (0, 1, 4): 指定使用哪几列 三、np.savetxt()写入数据 四...

2020-04-07 09:54:49 38 0

原创 【numpy】(三)改变数据结构

目录 1,reshape 2,添加新轴 3,矩阵压缩 4,矩阵转置 5,数组拼接 6, 数组拉长,展平 1,reshape 更详细的解释,参考博文:https://blog.csdn.net/u010916338/article/details/84066369?ops_reque...

2020-04-05 21:12:28 53 0

提示
确定要删除当前文章?
取消 删除