木土a-CSDN博客

原创 Flink 介绍

一.介绍Apache Flink 是一个分布式的计算框架，对有界流(批处理)和无界流(流处理)数据进行有状态的计算1.有界流和无界流有界流有定义流的开始，也有定义的结束。可以在摄取所有数据后进行计算所有数据可以被排序，无需有序摄取数据有界流通常为批处理无界流有定义的开始，没有定义的结束数据需要在获取后立即执行计算数据需要有序，以便推断结果的完整性2.数据的计算模型**批计算：**对定义的时间范围内的数据进行计算，批计算需要支持高吞吐、高效处理**流计算：**只要数据一.

2021-11-23 22:16:50 1015

原创 mysql 获取今年/去年首日( '01-01')

mysql 获取今年第一天SELECT DATE_SUB(CURDATE(),INTERVAL dayofyear(now())-1 DAY)结果:mysql 获取去年第一天select DATE_SUB(DATE_SUB(CURDATE(),INTERVAL dayofyear(now())+1 DAY),INTERVAL dayofyear(DATE_SUB(C...

2020-03-17 14:25:50 3699

原创 spark 解析 Json 字符串

有这样的 json 字符串{"date":"2019-04-04","$browser_version":"11.0"}{"date":"2019-04-04","$browser_version":"7.0.3}这里我用python来解析 Python 的Pyspark 如何用 pyspark 解析这段 json 字符串首先想到的就是 read.json函数，点进...

2019-12-05 23:19:56 3949

原创 ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

stop-hbase.shstopping hbase...................Slave2: no zookeeper to stop because no pid file /var/hadoop/pids/hbase-root-zookeeper.pidMaster: no zookeeper to stop because no pid file /var/had...

2019-12-01 14:50:16 285

原创 hive on spark 使用 collect_set 时出现org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@852766e6

问题： hive on spark 使用collect_set 出现org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@852766e6分析：UnsafeArrayData@852766e6 是看起来像java 的 Array 输出，既然这样那我们就把它转为字符串试试，hive 里类型转换是使用 cast( 参数 ...

2019-11-01 14:46:28 1396

原创 Ubunto更新mysql初始账号密码

Ubunto18.04下安装mysqlapt-get install mysql-server mysql-client安装完mysql 直接敲命令mysql能到mysql命令行说明一件安装成功如果想更新数据库初始账号密码怎么办呢首先打开debian.cnf文件，这个文件里面包含我们的默认账号密码和Host文件vim /etc/mysql/debian.cnf上面...

2019-08-26 23:04:14 159

原创数据的描述性统计

数据集中趋势描述数据集中趋势的度量：平均数、中位数、众数中位数概念：样本，种群或者概率分布中的一个数值，其可将数值集合划分为相等的上下两部分求中位数一共有三步：从小到大顺序排列数值如果数值是奇数个，则中位数位于中间的数值，如果有n个数值，则中间数的位置是（n+1）/2如果数值为偶数个，则中位数是中间两个数值相加除以2 , 中间位置的算法是（n+1）/2 ，n/2公式:[外链图片...

2019-07-19 17:55:48 557

原创数据的描述性统计

# 数据集中趋势描述数据集中趋势的度量：平均数、中位数、众数## 中位数**概念**：样本，种群或者概率分布中的一个数值，其可将数值集合划分为相等的上下两部分**求中位数一共有三步：** * 从小到大顺序排列数值 * 如果数值是奇数个，则中位数位于中间的数值，如果有n个数值，则中间数的位置是（n+1）/2 * 如果数值为偶数个，则中位数是中间两个数值相加除以2 ...

2019-07-19 17:54:02 348

原创 spark-Shell 启动报错的坑

部署spark版本2.4.1（包为spark-2.4.1-bin-without-hadoop.tgz）时，启动spark-shell报错错误信息是：Exception in thread "main" java.lang.NoSuchMethodError: jline.console.completer.CandidateListCompletionHandler.setPrintSpac...

2019-04-15 11:18:50 2751

原创 kafka创建消费者报错zookeeper is not a recognized option

在学习kafka时，创建消费者：./kafka-console-consumer.sh --zookeeper localhost:2181 --topic dblab --from-beginning时，报错zookeeper is not a recognized option，google下发现是最新版本中这种启动方式已经删除新启动方式：./kafka-console-consum...

2019-04-11 21:11:31 725

原创 pandas str.contains 列表（list）模糊匹配

使用pandas时，str.contains()进行一次模糊匹配多个值方法1 ：search = ['python','java','go']found = [s['language].str.contains(x) for x in searchfor]方法二：search = ['python','java','go']found = [s['languag...

2019-04-09 19:40:09 19903 2

原创 Hive表（分区和分桶）

Hive分区描述： Hive分区根据某字段的值分区 1.可以多维度分区 2.分区不会影响大范围查询的执行效率 3.每个分区为一个目录 4.分区下可继续分区或者分桶优点：限制在某个或者某些区间的值查询，处理速度会非常快创建分区执行语句：PARTITIONED BY 例：创建日志表，按照dt与country分区 CREATE TABLE logs(ts bigint, ...

2019-04-03 14:34:38 169

原创 Hive基本介绍

Hive介绍facebook开源设计目的：Hive期初是为了提供给那些精通sql但是java编程能力相对较弱的数据工程师能够对facebook上存放的HDFS的大规模数据集进行查询 Hive是构建在hdfs上的数据仓库框架计算框架为MapReduce 数据存储在HDFS 适合离线数据处理将HQL转为MR的语言翻译Hive场景应用举例日志分析统计网站一个时间段内的...

2019-04-03 14:27:53 137

原创执行hadoop fs -mkdir时，提示mkdir: `/user/hadoop/': No such file or directory

这是因为一开始父目录也不存在（也就是/user不存在）执行命令hdfs dfs -mkdir -p /user/hadoop或者hadoop fs -mkdir -p /user/hadoop/ -p标志表示还将创建通向给定目录的所有不存在的目录。参考网址：https://stackoverflow.com/questions/40143528/hdf...

2019-02-17 16:51:15 13674 1

原创 mysql数据导入hive出现错误ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf.

ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.mysql导入数据到hive在sqoop根目录输入命令：./bin/sqoop import --connect jdbc:mysql://xxx.xx...

2019-02-12 18:44:04 4889 3

原创 Hadoop问题：There are 0 datanode(s) running and no node(s) are excluded in this operation.

问题分析：There are 0 datanode(s) 使用jps查看有哪些进程正在运行，发现datanode节点没有在运行说明是由于该节点没有正常启动导致数据无法存放，从而发生错误。问题解决：尝试如下命令：# 针对 DataNode 没法启动的解决方法./sbin/stop-dfs.sh # 关闭rm -r ./tmp # 删除 tmp 文件，注意这会删除 HDF...

2019-01-29 11:03:34 1959

原创 django报错系列

1.使用xadmin时编写生鲜超市后台时，在商品信息报错'NoneType' object has no attribute '_meta'哪个模块报错就去看哪里的代码，检查了下发现是自己多谢了一个单词正确的应该是 2.使用django_filters时出现TypeError: __init__() got an unexpected keyword argum...

2019-01-02 22:22:02 426

原创 python 中 all 的用法

python模块中的__all__属性，可用于模块导入时限制，如：from module import *此时被导入模块若定义了__all__属性，则只有__all__内指定的属性、方法、类可被导入。若没定义，则导入模块内的所有公有属性，方法和类。如：我们创建一个test.py文件__all__ = ['A','B','a'] # 在别的模块中使用 from test impo...

2018-12-09 20:21:15 816 1

原创 python deque用法

Python中的collentions中有一个deque，这个对象类似于list列表，但是使用list存储数据是，按索引访问元素很快，但是插入和删除就很慢了，因为list是线性存储，数据量大的时候，插入和删除效率很低。但是deque是为了实现插入和删除操作的双向列表，适用于队列和栈：下面演示下deque的节本用法：输入：import collectionsd=collectio...

2018-10-19 14:36:50 17594 3

weixin_41018467的博客

原创 Flink 介绍

原创 mysql 获取今年/去年首日( '01-01')

原创 spark 解析 Json 字符串

原创 ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

原创 hive on spark 使用 collect_set 时出现org.apache.spark.sql.catalyst.expressions.UnsafeArrayData@852766e6

原创 Ubunto更新mysql初始账号密码

原创数据的描述性统计

原创数据的描述性统计

原创 spark-Shell 启动报错的坑

原创 kafka创建消费者报错zookeeper is not a recognized option

原创 pandas str.contains 列表（list）模糊匹配

原创 Hive表（分区和分桶）

原创 Hive基本介绍

原创执行hadoop fs -mkdir时，提示mkdir: `/user/hadoop/': No such file or directory

原创 mysql数据导入hive出现错误ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf.

原创 Hadoop问题：There are 0 datanode(s) running and no node(s) are excluded in this operation.

原创 django报错系列

原创 python 中 all 的用法

原创 python deque用法

空空如也

空空如也