![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
编程
文章平均质量分 64
木土a
这个作者很懒,什么都没留下…
展开
-
Flink 介绍
一.介绍Apache Flink 是一个分布式的计算框架,对有界流(批处理)和无界流(流处理)数据进行有状态的计算1.有界流和无界流有界流有定义流的开始,也有定义的结束。可以在摄取所有数据后进行计算所有数据可以被排序,无需有序摄取数据有界流通常为批处理无界流有定义的开始,没有定义的结束数据需要在获取后立即执行计算数据需要有序,以便推断结果的完整性2.数据的计算模型**批计算:**对定义的时间范围内的数据进行计算,批计算需要支持高吞吐、高效处理**流计算:**只要数据一.原创 2021-11-23 22:16:50 · 1014 阅读 · 0 评论 -
数据的描述性统计
数据集中趋势描述数据集中趋势的度量:平均数、中位数、众数中位数概念:样本,种群或者概率分布中的一个数值,其可将数值集合划分为相等的上下两部分求中位数一共有三步:从小到大顺序排列数值如果数值是奇数个,则中位数位于中间的数值,如果有n个数值,则中间数的位置是(n+1)/2如果数值为偶数个,则中位数是中间两个数值相加除以2 , 中间位置的算法是(n+1)/2 ,n/2公式:[外链图片...原创 2019-07-19 17:55:48 · 556 阅读 · 0 评论 -
spark-Shell 启动报错的坑
部署spark版本2.4.1(包为spark-2.4.1-bin-without-hadoop.tgz)时,启动spark-shell报错错误信息是:Exception in thread "main" java.lang.NoSuchMethodError: jline.console.completer.CandidateListCompletionHandler.setPrintSpac...原创 2019-04-15 11:18:50 · 2749 阅读 · 0 评论 -
pandas str.contains 列表(list) 模糊匹配
使用pandas时,str.contains()进行一次模糊匹配多个值方法1 :search = ['python','java','go']found = [s['language].str.contains(x) for x in searchfor]方法二:search = ['python','java','go']found = [s['languag...原创 2019-04-09 19:40:09 · 19887 阅读 · 2 评论 -
Hive表(分区和分桶)
Hive分区描述: Hive分区根据某字段的值分区 1.可以多维度分区 2.分区不会影响大范围查询的执行效率 3.每个分区为一个目录 4.分区下可继续分区或者分桶 优点:限制在某个或者某些区间的值查询,处理速度会非常快 创建分区执行语句:PARTITIONED BY 例:创建日志表,按照dt与country分区 CREATE TABLE logs(ts bigint, ...原创 2019-04-03 14:34:38 · 168 阅读 · 0 评论 -
Hive基本介绍
Hive介绍facebook开源 设计目的:Hive期初是为了提供给那些精通sql但是java编程能力相对较弱的数据工程师能够对facebook上存放的HDFS的大规模数据集进行查询 Hive是构建在hdfs上的数据仓库框架 计算框架为MapReduce 数据存储在HDFS 适合离线数据处理 将HQL转为MR的语言翻译Hive场景应用举例日志分析统计网站一个时间段内的...原创 2019-04-03 14:27:53 · 137 阅读 · 0 评论 -
kafka创建消费者报错zookeeper is not a recognized option
在学习kafka时,创建消费者:./kafka-console-consumer.sh --zookeeper localhost:2181 --topic dblab --from-beginning时,报错zookeeper is not a recognized option,google下发现是最新版本中这种启动方式已经删除新启动方式:./kafka-console-consum...原创 2019-04-11 21:11:31 · 720 阅读 · 0 评论 -
Hadoop问题:There are 0 datanode(s) running and no node(s) are excluded in this operation.
问题分析:There are 0 datanode(s) 使用jps查看有哪些进程正在运行,发现datanode节点没有在运行说明是由于该节点没有正常启动导致数据无法存放,从而发生错误。问题解决:尝试如下命令:# 针对 DataNode 没法启动的解决方法./sbin/stop-dfs.sh # 关闭rm -r ./tmp # 删除 tmp 文件,注意这会删除 HDF...原创 2019-01-29 11:03:34 · 1953 阅读 · 0 评论 -
django报错系列
1.使用xadmin时编写生鲜超市后台时,在商品信息报错'NoneType' object has no attribute '_meta'哪个模块报错就去看哪里的代码,检查了下发现是自己多谢了一个单词正确的应该是 2.使用django_filters时出现TypeError: __init__() got an unexpected keyword argum...原创 2019-01-02 22:22:02 · 426 阅读 · 0 评论 -
python 中 __all__ 的用法
python模块中的__all__属性,可用于模块导入时限制,如:from module import *此时被导入模块若定义了__all__属性,则只有__all__内指定的属性、方法、类可被导入。若没定义,则导入模块内的所有公有属性,方法和类 。如:我们创建一个test.py文件__all__ = ['A','B','a'] # 在别的模块中使用 from test impo...原创 2018-12-09 20:21:15 · 815 阅读 · 1 评论 -
python deque用法
Python中的collentions中有一个deque,这个对象类似于list列表,但是使用list存储数据是,按索引访问元素很快,但是插入和删除就很慢了,因为list是线性存储,数据量大的时候,插入和删除效率很低。但是deque是为了实现插入和删除操作的双向列表,适用于队列和栈:下面演示下deque的节本用法:输入:import collectionsd=collectio...原创 2018-10-19 14:36:50 · 17584 阅读 · 3 评论