自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(457)
  • 资源 (1)
  • 论坛 (1)
  • 收藏
  • 关注

原创 yum命令安装rpm包之后保留rpm包

yum 默认情况下,升级或者安装后,会删除下载的rpm包。我们也可以如下设置升级后不删除下载的rpm包vim/etc/yum.conf将 keepcache=0 修改为 keepcache=1

2020-05-24 18:16:31 175

原创 pyspark单词计数

一、shell模式# 输入数据data = ["hello", "world", "hello", "world"]# 将collection的data转为spark中的rdd并进行操作rdd = sc.parallelize(data)res_rdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)# 将rdd转为collection并打印res_rdd_coll = res_rdd.collect()f

2020-05-15 01:21:21 394

原创 spark单词计数

一、spark-shell模式注:单词文件上传至hdfs,参考博文:https://blog.csdn.net/u010916338/article/details/81102346?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158946937419724835823007%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&req

2020-05-15 00:28:15 199

原创 TypeError: namedtuple() missing 3 required keyword-only arguments: verbose, rename, and module

spark不支持python3.6(1)卸载anaconda,参考博文:https://blog.csdn.net/u010916338/article/details/106108146(2)带有python3.5的安装包下载地址:链接:https://pan.baidu.com/s/17jkomEQhoc3EzdCH18SfKw提取码:1t9a(3)anaconda安装步骤,参考博文:https://blog.csdn.net/u010916338/article/details/106101

2020-05-13 22:22:11 1054

原创 Linux卸载anaconda

一、找到安装Anaconda的目录,删除其文件夹sudo rm -rf path/anaconda3二、修改配置文件(1)vim ~/.bashrc(2)删除语句,或者注释语句export PATH=path/anaconda3/bin:PATH(3)vim/etc/profile(4)删除exportPATH=path/anaconda3/bin:PATH(3)vim /etc/profile(4)删除export PATH=path/anaconda3/bin:PATH(3)vim/etc

2020-05-13 22:17:34 782

原创 Linux安装anaconda

一、下载anaconda3.5.2历史版本地址:https://repo.continuum.io/archive/百度网盘地址:链接:https://pan.baidu.com/s/1QWb6uhsTx6QZtwEdEUk8_g提取码:x4fc二、安装anaconda3.5.2(1)赋予Anaconda3-5.2.0-Linux-x86_64可执行权限chmod u+x Anaconda3-5.2.0-Linux-x86_64.sh(2)./Anaconda3-5.2.0-Linux-x

2020-05-13 17:05:16 434

原创 【seaborn】(十)sns.facetgrid

一、sns.facetgrid

2020-05-11 22:17:02 356

原创 【seaborn】(九)sns.factorplot

一、sns.factorplot

2020-05-11 22:11:38 470

原创 【seaborn】(八)条形图

一、sns.barplot()1.1 加载数据1.2 x, y, data:x轴数据,y轴数据,dataframe数据1.3 hue:指定列名,按照列名类别,标记不同颜色

2020-05-11 21:52:59 196

原创 【seaborn】(七)盒图

一、sns.boxplot()IQR即统计学概念四分位距,第一/四分位与第三/四分位之间的距离N = 1.5IQR 如果一个值>Q3+N或 < Q1-N,则为离群点1.1 x, y, data:x轴数据,y轴数据,dataframe数据1.2 hue:指定列名,按照列名类别,标记不同颜色二、sns.violinplot()2.1 x, y, data:x轴数据,y轴数据,dataframe数据2.2 hue:指定列名,按照列名类别,标记不同颜色2.3 split:hu

2020-05-11 21:42:57 238

原创 【seaborn】(六)回归分析

文章目录一、sns.regplot()1.1 加载数据1.2 x, y, data:x轴数据,y轴数据,dataframe数据1.3 x_jtter 同一个位置上的点沿着x轴散开1.4 color颜色1.5 maker点类型一、sns.regplot()1.1 加载数据1.2 x, y, data:x轴数据,y轴数据,dataframe数据1.3 x_jtter 同一个位置上的点沿着x轴散开1.4 color颜色1.5 maker点类型...

2020-05-11 21:09:10 137

原创 hive表和kudu表删除指定数据

1,hive表删除数据1.1 分区表1.1.1 删除具体partitionalter table table_name drop partition(partiton_name='xxx'))1.1.2删除具体partition的部分数据 INSERT OVERWRITE TABLE table_name PARTITION(year='2018') SELECT * FROM table_name WHERE year='2018' AND month>6;.

2020-05-11 12:18:47 1518

原创 【seaborn】(五)联合分布图

一、单变量分析单变量分析就是直方图参考博文:https://blog.csdn.net/u010916338/article/details/106036759二、多变量分析图2.1 散点图参考博文:https://blog.csdn.net/u010916338/article/details/1060189032.2 sns.jointplot()双变量分析图,直方图加散点图seaborn.jointplot(x, y, data=None, kind=’scatter’, stat_fu

2020-05-10 17:38:09 441

原创 【seaborn】(四)直方图

一、sns.distplot()seaborn.distplot(a, bins=None, hist=True, kde=True, rug=False, fit=None, hist_kws=None, kde_kws=None, rug_kws=None, fit_kws=None, color=None, vertical=False, norm_hist=False, axlabel=None, label=None, ax=None)1.1 x变量1.2 kde是否显示密度函数线条-

2020-05-10 16:21:34 2561

原创 【seaborn】(一)基本设置

文章目录一、主题风格1.1 sns.set()默认主题风格1.2 5种主题风格1.2.1 darkgrid黑色背景有网格线1.2.2 whitegrid白色背景有网格线1.2.3 dark黑色背景无网格线1.2.4 dark黑色背景无网格线1.2.5 ticks带有刻度线2.2、子图设置不同风格二、sns.despine图边框设置2.1 默认情况2.2 offset设置图形与轴距离2.3 left设置左边框是否显示2.4 bottom设置下边框是否显示2.5 top设置上边框是否显示2.6 right

2020-05-10 15:17:29 533 1

原创 【seaborn】(三)散点图

一、sns.scatterplot()seaborn.scatterplot(x=None, y=None, hue=None, style=None, size=None, data=None, palette=None, hue_order=None, hue_norm=None, sizes=None, size_order=None, size_norm=None, markers=True, style_order=None, x_bins=None, y_bins=None, units=No

2020-05-09 16:58:40 656

原创 【seaborn】(二)折线图

文章目录一、sns.plot()1.1 加载数据1.2 data1.3 x, y1.4 hue 基于某列的类别将y分成多条线,并分配不同线条颜色1.5 style基于某列的类别将y分成多条线,并分配不同线条颜色1.6 size 基于某列的类别将y分成多条线,并分配不同线条粗细程度1.7 markers 关键点是否做标记1.8 dashes 分组是否破折号显示一、sns.plot()seabor...

2020-05-08 13:54:18 2469 2

原创 【Matplotlib】(十一)3D图

文章目录一、3种方式拿到3D图像轴域1.1 fig.gca获取轴域句柄1.2 fig.add_subplot创建子图1.3 Axes3D对象构建二、折线图一、3种方式拿到3D图像轴域1.1 fig.gca获取轴域句柄import matplotlib.pyplot as pltplt.fig = plt.figure()ax = fig.gca(projection='3d')1....

2020-04-30 15:25:22 191

原创 【word】标题绑定列表

文章目录一、标题二、列表三、字体分别在序号和标题中设置一、标题一般情况下,都会去点标题一,标题二但是怎么才能让它带上序号呢?二、列表默认的标题并没有序号自己定义一个列表(当然你也可以选库里自带的列表)三、字体分别在序号和标题中设置...

2020-04-27 17:36:59 124

原创 df.plot

一、介绍使用DataFrame的plot方法绘制图像会按照数据的每一列绘制一条曲线,默认按照列columns的名称在适当的位置展示图例,比matplotlib绘制节省时间,且DataFrame格式的数据更规范,方便向量化及计算。二、df.plot()DataFrame.plot(x=None, y=None, kind=‘line’, ax=None, subplots=False,sha...

2020-04-24 16:09:55 1317

原创 【Matplotlib】(九)饼图

一、plt.pie饼图1.1 x:数据(1)list类型(2)自动根据数字大小计算占比,类似相对权重,参考博文:https://blog.csdn.net/u010916338/article/details/1057132021.2 labels:标签1.3 autopct:自动计算百分比1.4 colors:颜色list类型1.5 explode:每一块离开圆...

2020-04-23 23:57:12 521

原创 【python基础】抽样

一、random.choice()随机返回一个数(1)choice() 方法返回一个列表,元组或字符串的随机项。二、random.choices()随机返回指定个数数据2.1 population:数据。2.2 k:选取次数(抽样次数可以大于总体数据个数)2.3 weights:相对权重。参数weights设置相对权重,它的值是一个列表,设置之后,每一个成员被抽取到的概率就被确...

2020-04-23 20:28:43 269

原创 【Matplotlib】(八)散点图

一、plt.scatter()matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, verts=None, edgecolors=None, *, data=None, **kwarg...

2020-04-23 17:07:18 241

原创 【Matplotlib】(七)箱线图

一、plt.boxplot箱线图(1)它由五个数值点组成:最小值(min),下四分位数(Q1),中位数(median),上四分位数(Q3),最大值(max)(2)IQR = Q3-Q1(3)min = Q1 - 1.5*IQR(4)max = Q3 + 1.5*IQR(5) plt.boxplot(x, notch=None, sym=None, vert=None,whis=No...

2020-04-23 11:46:58 345

原创 【Matplotlib】(六)子图

一、plt.subplot1.1 nrows, ncols, index:一共几行、一共几列,第几个图(1)plt.subplot(2, 3, 5) 和 plt.subplot(235) 是一样一样的(2)所有的数字不能超过10(3)plt.subplot其实是对plt.axes轴域的包装...

2020-04-21 22:35:38 249

原创 【Matplotlib】(五)直方图(频数统计图)

一、plt.hist直方图1.1 x:随机变量取值注:y轴自动计算随机变量出现的次数1.2 bins:分组个数注:指定分组个数,系统自动等距离分组1.3 color:直方图颜色1.4 range:设定随机变量统计范围1.5 bottom:设定y轴的起始位置注:本例中y轴坐标从4开始...

2020-04-21 17:25:14 3590

原创 【Matplotlib】(二)figure与axes与axis的区别

一、plt.figure图片/画板(1)类似真实的画布,后续所有操作都在画布上进行。(2)它就是一幅画,一笔不画也是一幅画,画满还是一幅画。1.1 num图片编号(1)num类似图片的编号,画布的编号。(2)允许创建多个figure画图板,但是具体操作遵循就近原则(操作是在最近一次调用的画图板上实现)(3)缺省条件下内部默认调用pyplot.figure(1)1.2 f...

2020-04-21 00:25:50 847

原创 【Matplotlib】(四)条形图(柱状图)

一、画数据1.1 plt.bar(x, y)竖着画1.2 plt.barh(x, y)横着画1.3 plt.bar(color=)设置柱状图颜色二、plt.subplots()画子图三、plt.axhline()正负柱状图之间加横线四、多柱状比较...

2020-04-15 22:15:22 416

原创 【Matplotlib】(一)基本设置

一、省略plt.show()#整个ipynb执行一次就行%matplotlib inline

2020-04-15 21:27:03 132

原创 【Matplotlib】(三)折线图

一、画数据1.1 plt.plot(x, y)1.2 plt.plot(y)当只有y而x缺省时,x默认为range(len(y))二、线条2.1 线条类型2.2 plt.plot(color=)线条颜色2.3 plt.plot(linewidth=)线条宽度np.linspace线性构造数据,参考博文:https://blog.csdn.net/u010916338/art...

2020-04-15 21:12:27 330

原创 【pandas】(七)df.apply(lambda表达式)

一、pandas.apply()1.1遍历DataFrame的元素(一行数据或者一列数据)dataframe.apply(function,axis)对一行或一列做出一些操作(axis=1遍历行,axis=0遍历列)1.1.1 行遍历1.1.2 列遍历默认列遍历1.2遍历Series的元素(单个数据)1.3 lambda表达式函数式编程,使得apply()处理数据时,参数可...

2020-04-13 19:12:21 11362 1

原创 【pandas】(六)增删改查

一、增加数据1.1 增加一行1.2 增加一列1.3 pd.concat()拼接数据注:pd.concat()既可以增加行,又可以增加列pd.concat(objs, axis=0, join=‘outer’, join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrit...

2020-04-10 10:49:20 282

原创 【pandas】(四)索引

文章目录一、行索引1.1、df.loc(),用label值定位1.1.1 定位一个索引1.1.2 定位多个索引二、列索引2.1 df[],用label值定位2.1.1 定位一个索引2.1.2 定位多个索引三、行列组合索引3.1、df.iloc(),用position位置定位3.1.1 定位行3.1.1.1 只定位一行3.1.1.2 定位多行3.1.2 定位列3.1.2.1 只定位一列3.1.2.2...

2020-04-09 22:50:38 126

原创 【pandas】(五)统计

一、描述性统计1.1 单个统计量统计

2020-04-09 11:23:45 116

原创 绘图设置坐标显示上下限

plt.ylim()https://blog.csdn.net/The_Time_Runner/article/details/89928057

2020-04-08 17:13:26 499 1

原创 【pandas】(二)读写数据

一、读数据以kaggle竞赛,Titanic数据为例1.1pandas.read_csvpandas.read_csv(filepath_or_buffer, sep=', ', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, m...

2020-04-07 23:31:31 186

原创 【pandas】(一)构造数据

一、通过其它数据结构转换1.1 通过list转换1.2 通过numpy的array转换注:既然很多数据可以从numpy的array转换过来,pandas的数据构造就可以参照numpy的数据构造,参考博文:https://blog.csdn.net/u010916338/article/details/1053259821.3通过direct字典转换...

2020-04-07 19:27:29 267

原创 【pandas】(三)基本操作

一,显示数据1.1 df.head()显示前几条数据1.2 df.tail()显示前几条数据1.3 df全部显示二,help帮助函数,查看函数用法注:函数必须带上包名三、查看dataframe3.1 df.info()查看数据整体情况3.2df.index查看数据行索引3.3 df.columns查看数据列索引3...

2020-04-07 17:24:22 276

原创 【numpy】(四)读写数据

一,造数据二、np.loadtxt()读取数据skiprows:去掉几行 delimiter = ',':分隔符 usecols = (0, 1, 4): 指定使用哪几列三、np.savetxt()写入数据四、np.save()保存数据五、np.load()读取数据注:(1)在深度学...

2020-04-07 09:54:49 111

原创 【numpy】(三)改变数据结构

目录1,reshape2,添加新轴3,矩阵压缩4,矩阵转置5,数组拼接6, 数组拉长,展平1,reshape更详细的解释,参考博文:https://blog.csdn.net/u010916338/article/details/84066369?ops_request_misc=%257B%2522request%255Fid%2522%253A%25221586...

2020-04-05 21:12:28 113

MxNet预编译版本下载

符号计算构架(如 CNTK,MXNET,TensorFlow,Theano)被定义为一个向量运算符的符号图,例如矩阵的加法/乘法或卷积。一个层仅是这些运算符的组合。构造块(运算符)良好的粒度允许用户在不需要在低级语言(如在 Caffe 中)中实现的情况下,开发新的复杂层类型。 符号框架可以从依赖图中自动推倒优化,可以利用更多内存复用机会

2017-10-10

醉糊涂仙的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除