LInux安装ficonfig和rz,sz命令

安装ifconfig 首先 ls /sbin/ifconfig ,确认是否是环境变量没有ifconfig引起的 如果确定了系统是没有安装ifconfig命令的,进行如下操作来安装: yum install ifconfig 此时出现下图: 这个时候,我们使用yum search if...

2019-08-15 09:15:48

阅读数 11

评论数 0

linux文件句柄数

1、问题阐述: toomanyopenfiles:顾名思义即打开过多文件数。 不过这里的files不单是文件的意思,也包括打开的通讯链接(比如socket),正在监听的端口等等,所以有时候也可以叫做句柄(handle),这个错误通常也可以叫做句柄数超出系统限制。 2、产生的原因: 经常在使...

2019-08-10 12:21:04

阅读数 22

评论数 0

Linux能同时启动多少个线程

默认情况下: 主线程+辅助线程 +<253个自己的线程<=255 含主线程和一个辅助线程,最多255个,即一个用户只能生成253个线程。 Linux最大线程数限制及当前线程数查询: 1、总结系统限制有: /proc/sys/kernel/pid_max #查系统...

2019-08-10 11:18:16

阅读数 18

评论数 0

PySpark---SparkSQL中的DataFrame(四)

1.replace(to_replace, value=_NoValue, subset=None) """Returns a new :class:`DataFrame` replacing a value with another value. :func:`...

2019-08-04 00:32:55

阅读数 77

评论数 0

PySpark---SparkSQL中的DataFrame(三)

1.filter(condition) """Filters rows using the given condition. :func:`where` is an alias for :func:`filter`. :param condition: a :cl...

2019-08-03 12:41:08

阅读数 33

评论数 0

PySpark---SparkSQL中的DataFrame(二)

1.colRegex(colName): """ Selects column based on the column name specified as a regex and returns it as :class:`Column`. ""...

2019-08-01 17:29:29

阅读数 26

评论数 0

最近实践1---hive2.x参数

hive.exec.compress.output=false mapreduce.output.fileoutputformat.compress=false hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveIn...

2019-08-01 13:11:25

阅读数 19

评论数 0

PySpark---SparkSQL中的DataFrame(一)

DataFrame是按照列名来组织数据的分布式数据集,是SparkSQL最重要的抽象。由于基于DataFrame的算法在性能和优化的余地上(Tungstun和Catalyst)有更大的空间,因此,现在Spark里基于DataFrame的机器学习库ml及Structured Streaming都采用...

2019-08-01 13:01:57

阅读数 20

评论数 0

HBase 2.0 API 初步窥探

话不多说直接上代码 package Base; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil;...

2019-07-27 17:06:44

阅读数 45

评论数 0

PySpark ---- Sparkcontext编程入口

SparkContext是PySpark的编程入口,作业的提交,任务的分发,应用的注册都会在SparkContext中进行。一个SparkContext实例代表着和Spark的一个连接,只有建立了连接才可以把作业提交到集群中去。实例化了SparkContext之后才能创建RDD和Broadcast...

2019-07-14 10:15:48

阅读数 45

评论数 0

Python: 浅淡Python中的属性(property)

起源: 项目过程中需要研究youtube_dl这个开源组件,翻阅其中对类的使用,对比c#及Delphi中实现,感觉Python属性机制挺有意思。 区别与高级编程语言之单一入口,在类之属性这一方面,它随意的太多,以致于习惯了高级语言的严谨,对如此随意心里倒是有些不安。 也难怪,因为其数据类型弱限制性...

2019-07-07 22:17:40

阅读数 20

评论数 0

PySpark----Transformation操作

1.cache() 使用默认的缓存级别MEMORY_ONLY将数据进行持久化 持久化级别由如下的取值: 可以调用rdd上的getStorageLevel获取当前rdd对应的持久化级别 from pyspark import * import numpy as np rdd = sc.p...

2019-07-07 22:09:15

阅读数 27

评论数 0

PySpark----Action操作

目录 1.aggregate(zeroValue, seqOp, combOp) 2..aggregateByKey(zeroValue, seqFunc, combFunc, numPartitions=None, partitionFunc= ) 3.collect方法 4.colle...

2019-07-07 12:36:03

阅读数 30

评论数 0

Spark与Pandas中DataFrame对比(详细)

Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处...

2019-06-27 18:55:50

阅读数 31

评论数 0

Hive--参数优化

一、Map阶段的优化(Mapphase) 1.Map数的计算公式为: num_Map_tasks=max[${Mapred.min.spilt.size},min(${dfs.block.size},${Mapred.max.split.size})] Mapred.min.spilt.siz...

2019-06-20 14:42:32

阅读数 30

评论数 0

hive导出查询文件到本地文件

通过HQL语句 可以将hive 中表的数据生成到指定的目录。 有时候 我们可以利用hive来生成统计的中间文件(比源文件小的多的) 方法有如下2种: 1.INSERT OVERWRITE LOCAL DIRECTORY 将结果输出到指定的目录: 生成的文件数 和redurcer的数目的一样的 ...

2019-05-20 19:22:49

阅读数 172

评论数 0

hive的中的sql的执行顺序

在hive的执行语句当中的执行查询的顺序: 这是一条sql: select … from … where … group by … having … order by … 执行顺序: from … where … select … group by … having … order by ...

2019-05-18 01:40:02

阅读数 90

评论数 0

awk--正则匹配列中指定的字符

正则表达式的特点 正则表达式由以下内容组合而成: 普通字符,例如空格、下划线、A-Z、a-z、0-9。 可以扩展为普通字符的元字符,它们包括: (.) 它匹配除了换行符外的任何单个字符。 (*) 它匹配零个或多个在其之前紧挨着的字符。 [ character(s) ] 它匹配任何由...

2019-05-16 19:50:06

阅读数 95

评论数 0

Hive常用函数大全(二)(窗口函数、分析函数、增强group)

窗口函数与分析函数 应用场景: (1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询 窗口函数 FIRST_VALUE:取分组内排序后,截止到当前行,第一个值 LAST_VALUE: 取分组内排序后,截止到当前行,最后一个值 LEAD(col,n,...

2019-05-13 16:02:27

阅读数 64

评论数 0

Hive常用函数大全(一)(关系/数学/逻辑/数值/日期/条件/字符串/集合统计/复杂类型)

测试数据集: create external table if not exists order_detail( user_id string, device_id string, user_type string, price double, sales int ) row format d...

2019-05-13 15:53:57

阅读数 19

评论数 0

提示
确定要删除当前文章?
取消 删除