大数据
文章平均质量分 83
木土a
这个作者很懒,什么都没留下…
展开
-
Flink 介绍
一.介绍Apache Flink 是一个分布式的计算框架,对有界流(批处理)和无界流(流处理)数据进行有状态的计算1.有界流和无界流有界流有定义流的开始,也有定义的结束。可以在摄取所有数据后进行计算所有数据可以被排序,无需有序摄取数据有界流通常为批处理无界流有定义的开始,没有定义的结束数据需要在获取后立即执行计算数据需要有序,以便推断结果的完整性2.数据的计算模型**批计算:**对定义的时间范围内的数据进行计算,批计算需要支持高吞吐、高效处理**流计算:**只要数据一.原创 2021-11-23 22:16:50 · 1014 阅读 · 0 评论 -
spark 解析 Json 字符串
有这样的 json 字符串{"date":"2019-04-04","$browser_version":"11.0"}{"date":"2019-04-04","$browser_version":"7.0.3}这里我用python来解析 Python 的Pyspark 如何用 pyspark 解析这段 json 字符串首先想到的就是 read.json函数,点进...原创 2019-12-05 23:19:56 · 3948 阅读 · 0 评论 -
ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
stop-hbase.shstopping hbase...................Slave2: no zookeeper to stop because no pid file /var/hadoop/pids/hbase-root-zookeeper.pidMaster: no zookeeper to stop because no pid file /var/had...原创 2019-12-01 14:50:16 · 284 阅读 · 0 评论 -
kafka创建消费者报错zookeeper is not a recognized option
在学习kafka时,创建消费者:./kafka-console-consumer.sh --zookeeper localhost:2181 --topic dblab --from-beginning时,报错zookeeper is not a recognized option,google下发现是最新版本中这种启动方式已经删除新启动方式:./kafka-console-consum...原创 2019-04-11 21:11:31 · 720 阅读 · 0 评论 -
Hive基本介绍
Hive介绍facebook开源 设计目的:Hive期初是为了提供给那些精通sql但是java编程能力相对较弱的数据工程师能够对facebook上存放的HDFS的大规模数据集进行查询 Hive是构建在hdfs上的数据仓库框架 计算框架为MapReduce 数据存储在HDFS 适合离线数据处理 将HQL转为MR的语言翻译Hive场景应用举例日志分析统计网站一个时间段内的...原创 2019-04-03 14:27:53 · 137 阅读 · 0 评论 -
Hive表(分区和分桶)
Hive分区描述: Hive分区根据某字段的值分区 1.可以多维度分区 2.分区不会影响大范围查询的执行效率 3.每个分区为一个目录 4.分区下可继续分区或者分桶 优点:限制在某个或者某些区间的值查询,处理速度会非常快 创建分区执行语句:PARTITIONED BY 例:创建日志表,按照dt与country分区 CREATE TABLE logs(ts bigint, ...原创 2019-04-03 14:34:38 · 168 阅读 · 0 评论 -
pandas str.contains 列表(list) 模糊匹配
使用pandas时,str.contains()进行一次模糊匹配多个值方法1 :search = ['python','java','go']found = [s['language].str.contains(x) for x in searchfor]方法二:search = ['python','java','go']found = [s['languag...原创 2019-04-09 19:40:09 · 19887 阅读 · 2 评论 -
spark-Shell 启动报错的坑
部署spark版本2.4.1(包为spark-2.4.1-bin-without-hadoop.tgz)时,启动spark-shell报错错误信息是:Exception in thread "main" java.lang.NoSuchMethodError: jline.console.completer.CandidateListCompletionHandler.setPrintSpac...原创 2019-04-15 11:18:50 · 2749 阅读 · 0 评论