大数据
呆萌的代Ma
这个作者很懒,什么都没留下…
展开
-
Docker安装的dolphinscheduler添加Mysql数据源,访问Mysql的数据
这里并不是将Mysql数据库作为元数据,只是添加Mysql数据库作为一个数据源博主是用docker安装的dolphinscheduler,版本是Standalone-server:3.2.1。原创 2024-03-19 10:51:22 · 524 阅读 · 0 评论 -
python kafka获取最新的offset
主要使用:consumer.end_offsets()即可示例代码首先运行生产者:from kafka import KafkaProducerimport datetimeimport json# 启动生产者producer = KafkaProducer(bootstrap_servers='localhost:9092', api_version=(0, 10, 2))my_topic = "python_test"for i in range(100): data =原创 2022-03-06 13:50:17 · 3994 阅读 · 2 评论 -
python-kafka多线程快速读取consumer消费者数据,同时使用批读取与无限流读取改进
python单线程循环读取consumer会很浪费时间,而且速率远远低于生产者可容纳的速率,因此我们使用多线程来处理IO密集型的读取操作文章目录极简的示例1. 生产者(先运行)2. 消费者部分多线程读取消费者改进 1:批次读取,并将读取到的数据返回消费者改进 2:无限读取kafka数据极简的示例我们直接上一个极简示例,没有任何花里胡哨的部分:1. 生产者(先运行)先运行生产者,再运行消费者部分哈:from kafka import KafkaProducerimport datetimeim原创 2022-03-06 10:37:16 · 6813 阅读 · 4 评论 -
kafka-python消费者读取数据时自定义偏移量,自定义数据读取的顺序
kafka-python的安装、基本使用与zookeeper启动等请参考:使用python连接kafka自定义consumer读取的offset写法注意在kafka-python中使用消费者自定义offset的读取顺序时,消费者的写法:from kafka import KafkaConsumerfrom kafka.structs import TopicPartitionconsumer = KafkaConsumer(bootstrap_servers='localhost:9092',原创 2022-03-05 18:12:29 · 3415 阅读 · 0 评论 -
使用python连接kafka
首先安装kafka:pip install kafka-pythongithub页面:https://github.com/dpkp/kafka-python文档位置:https://kafka-python.readthedocs.io/en/master/原创 2022-03-01 11:44:56 · 4234 阅读 · 4 评论 -
解决python使用happybase连接hbase报错thriftpy2.transport.base.TTransportException....TSocket read 0 bytes
完整报错:thriftpy2.transport.base.TTransportException: TTransportException(type=4, message='TSocket read 0 bytes')解决方法cd hbase-2.4.9/bin/ # 这里进入自己的bin目录下./hbase-daemon.sh start thrift注意:如果已经开启了thrift2,需要关闭thrift2,启用thrift的1代,使用:cd hbase-2.4.9/bin/./hba原创 2022-02-22 14:53:49 · 3655 阅读 · 0 评论 -
Hbase导入、导出数据到本地文件
注意导入、导出操作是在控制台中运行,而不是Hbase Shell中导出命令格式是:hbase org.apache.hadoop.hbase.mapreduce.Export "表名" 文件路径hbase org.apache.hadoop.hbase.mapreduce.Export "要导出的表名称" file:///home/my_hbase_data这会将Hbase中的my_table表的数据保存到/home/my_hbase_data文件夹下导入命令格式是:hbase org.apa原创 2022-02-20 11:44:38 · 4342 阅读 · 0 评论 -
Python使用HappyBase连接Hbase与基本操作
hbase基本概念可以参考:https://www.cnblogs.com/swordfall/p/8737328.html文章目录安装HbasePython连接Hbase1.创建、删除表结构2.增改表数据3.查看表数据4.删除表数据完整代码安装Hbasedocker安装hbase:docker pull harisekhon/hbasedocker run -d -h myhbase -p 2181:2181 -p 8080:8080 -p 8085:8085 -p 9090:9090 -p 9原创 2022-02-19 18:09:37 · 2957 阅读 · 0 评论 -
python使用局部敏感性哈希算法,在海量数据中查询相似序列
文章目录一、原生python实现二、第三方库datasketch使用1. 官方示例2. LSH算法3. MinHashLSHForest局部敏感性哈希是指:相似的哈希具有相似的原始序列整体思路:首先将数据装在不同的桶里(通过桶之间的Jaccard系数计算原始数据hash)得到hash生成的规则用这个规则来转换新的数据将新数据生成的hash与原有的所有hash进行比较,选择最相似的注:最后比较的过程不是两两匹配,每个不同的算法都有不同的简化的方式局部敏感性hash详细请参考:https:/原创 2021-12-28 14:55:16 · 1897 阅读 · 0 评论 -
python 读取redis数据后转为dataframe格式数据
思路读取大规模数据需要借助pipeline,速度会更快在读取后,需要删除掉异常读取的数据,pipeline不会报错,但是会返回一个type(line).__name__ == "ResponseError"的结果redis读取的数据是byte格式,需要整理为str格式示例import redisimport pandas as pdfrom tqdm import tqdmpool = redis.ConnectionPool(host='127.0.0.1', db=5) # 实现原创 2021-11-20 14:23:25 · 1114 阅读 · 0 评论 -
java flink使用addSink方法保存流数据到redis
博主把核心的内容写在最前面,其他内容和完整的代码放在最后面哈:文章目录pom配置主要代码其他内容:MyData2类,与生成数据源的类MyDataSource2pom配置 <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>3.0原创 2021-11-19 16:09:05 · 3202 阅读 · 0 评论 -
java Flink使用addSink方法保存流到mysql数据库中
博主把核心的内容写在最前面,其他内容和完整的代码放在最后面哈:文章目录主要代码其他内容:MyData2类,与生成数据源的类MyDataSource2主要代码package write_to_mysql;import create_data.MyData2; // 格式见其他内容import create_data.MyDataSource2; // 格式见其他内容import org.apache.flink.streaming.api.datastream.DataStreamSource;原创 2021-11-13 16:36:47 · 3883 阅读 · 2 评论 -
Mac安装redis与后台启动
使用brew install redisMac安装brew请参考:https://blog.csdn.net/weixin_35757704/article/details/108880008安装后的目录是:/usr/local/Cellar/redis启动redis:redis-server原创 2021-11-12 21:47:49 · 1265 阅读 · 0 评论 -
解决maven项目jdbc报错:java.lang.ClassNotFoundException: com.mysql.jdbc.Driver
博主使用flink连接数据库时报错,完整报错是:switched from INITIALIZING to FAILED with failure cause: java.lang.ClassNotFoundException: com.mysql.jdbc.Driver解决方法pom.xml文件添加配置项: <dependency> <groupId>mysql</groupId> <artifa原创 2021-11-03 18:36:40 · 1139 阅读 · 0 评论 -
java Flink滚动时间窗口聚合TumblingProcessingTimeWindows运算例子
整个的思路是:构造数据源窗口聚合代码1. 构造数据源首先构造数据,新建一个MyData2.java的文件,写入这个MyData2的类package create_data;import java.util.Arrays;public class MyData2 { public int keyId; public long timestamp; public int num; public double[] valueList; public原创 2021-10-20 12:20:17 · 2625 阅读 · 0 评论 -
Flink java模拟生成自定义流式数据
思路如下:定义一个POJO类,注意flink里使用的类必须有一个无参的构造方法自定义DataSource实现SourceFunction接口使用ctx.collect()传入想要发送的数据就可以了首先定义一个POJO类:class MyData { public int keyId; public long timestamp; public double value; public MyData() { } public MyData(in原创 2021-10-06 18:01:22 · 711 阅读 · 0 评论 -
flink java旁路输出(Side Output),对原始流进行分流、复制
flink通过ProcessFunction来分流,可以将一份流进行拆分、复制等操作,比如下面的代码通过读取一个基本的文本流,将流分别做处理后进行输出:案例代码package wordcount;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.datastr原创 2021-10-05 15:28:04 · 1734 阅读 · 0 评论 -
Flink java 自定义reduce函数,以wordcount为例
maven项目的文本文件与pom.xml配置请参考:https://blog.csdn.net/weixin_35757704/article/details/120555968同样以wordcount为例package transform;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.functions.ReduceFunction;import o原创 2021-09-29 21:01:42 · 476 阅读 · 0 评论 -
Flink Java 使用map reduce实现wordcount
整体思路首先数据源是流式读取文件内容对每行句子按照空格切分将每个单词都构造为一个Tuple,第一个位置是单词,第二个位置是词频按照key(单词)分组,对每个组做聚合(reduce)操作将结果输出文本文件在maven项目的resources下新建一个文件hello.txt,内容如下:hello worldhello flinkhello sparkWhen we have shuffled off this mortal coilWhen we have shuffled off原创 2021-09-29 20:41:27 · 423 阅读 · 0 评论 -
Linux tshark发送抓取的数据到kafka
首先要安装好kafka与zookeeper,请参考:https://blog.csdn.net/weixin_35757704/article/details/120488287然后使用一个新的窗口界面,进入到kafka的目录下,运行代码:nc -l 8888 | ./bin/kafka-console-producer.sh --broker-list localhost:9092 --topic 'tshark-kafka'这行命令的含义是借助nc作为跳板,运行kafka,将nc -l的输出原创 2021-09-26 21:39:43 · 291 阅读 · 0 评论 -
Flink java作为消费者连接虚拟机中的kafka/或本地的kafka,并解决java.net.UnknownHostException报错
kafka的安装与配置请参考:https://blog.csdn.net/weixin_35757704/article/details/120488287首先在kafka中创建一个topic,名称叫mytesttopic,进入到kafka的目录下,运行:./bin/kafka-topics.sh --create --topic mytesttopic --replication-factor 1 --partitions 1 --bootstrap-server localhost:9092原创 2021-09-26 16:54:27 · 683 阅读 · 0 评论 -
Linux单机安装kafka
官方源:https://kafka.apache.org/downloads.html,不出所料的奇慢无比清华源:https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/安装kafka以2.7.1为例:wget https://mirrors.tuna.tsinghua.edu.cn/apache/kafka/2.7.1/kafka_2.12-2.7.1.tgztar -zxf kafka_2.12-2.7.1.tgz然后进入目录:cd kafka原创 2021-09-26 15:15:49 · 501 阅读 · 0 评论 -
Flink java 使用nc命令模拟流式处理数据流
基本思路:本地使用nc命令作为待输入的文本流flink监听,并实时流计算步骤1:本地使用nc本地运行:nc -lk 9876保持运行即可,作为一会输入的文本流步骤2:flink java 代码package wordcount;import com.my_check.WordCount;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.flink.streaming.api.datastream.Da原创 2021-09-25 16:33:03 · 1294 阅读 · 1 评论 -
Flink java wordcount案例(批处理、流处理)
基本思路:首先构造pom.xml构造数据源,把数据都写在文件中批处理:使用import org.apache.flink.api.java.DataSet;读取数据流处理:使用import org.apache.flink.streaming.api.datastream.DataStream;读取数据首先新建一个maven项目:1.pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://原创 2021-09-25 16:16:53 · 641 阅读 · 0 评论 -
解决Flink案例DataStream中使用keyBy(0),keyBy弃用的问题
很多案例中:DataStream<Tuple2<String, Integer>> resultStream = inputDataStream.flatMap(new WordCount.MyFlatMapper()) .keyBy(0) // 这里弃用 .sum(1);改为:DataStream<Tuple2<String, Integer>> resultStream =原创 2021-09-24 17:38:49 · 2301 阅读 · 5 评论 -
解决IDEA运行Flink报错java.lang.NoClassDefFoundError: org/apache/flink/api/common/ExecutionConfig....
解决方法将provided改为compile,比如: <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>${flink.version}</version> <scope>compile</scope> </depende原创 2021-09-23 16:33:21 · 2996 阅读 · 1 评论 -
docker安装hbase
1. 下载docker与hbasedocker 的下载与安装请参考:https://blog.csdn.net/weixin_35757704/article/details/114777186docker pull harisekhon/hbase:1.3下载好后启动hbase:docker run -d --name hbase -p 16010:16010 harisekhon/hbase:1.3或是:docker run -d -h myhbase -p 2181:218原创 2021-09-19 15:21:28 · 954 阅读 · 0 评论 -
Linux/Mac 配置安装scala
安装官网:https://www.scala-lang.org/download/历史版本下载页面:https://www.scala-lang.org/download/all.html在上面的历史版本下载页面选择版本,比如2.12.1,下载scala-2.11.1.tgz:https://downloads.lightbend.com/scala/2.11.1/scala-2.11.1.tgz然后下载在本地后解压,比如我的解压目录是:/Users/xq/Desktop/software/sca原创 2021-08-03 19:42:07 · 147 阅读 · 0 评论 -
解决关闭hbase时stop-hbase.sh报错stopping hbasecat: /tmp/hbase-xxxx-master.pid: No such file or directory
完整报错是:stopping hbasecat: /tmp/hbase-xxxx-master.pid: No such file or directory解决方法sudo mkdir -p /var/hadoop/pids然后进入hbase的配置文件:cd /home/xq/apps/hbase-1.2.0/conf # 要进入自己的hbase目录vim hbase-env.sh添加一行(同版本的话可以参考121行):export HBASE_PID_DIR=/var/hadoop/pi原创 2021-08-03 08:48:31 · 2090 阅读 · 3 评论 -
解决编译redis报错zmalloc.h:50:10: fatal error: jemalloc/jemalloc.h: No such file or directory
解决方法进入redis的目录后运行:sudo make时报错:zmalloc.h:50:10: fatal error: jemalloc/jemalloc.h: No such file or directory,改用代码:sudo make MALLOC=libc原创 2021-07-31 20:11:33 · 3064 阅读 · 0 评论 -
解决pytorch DataLoader 加载数据报错UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xe5 in position 1023
完整报错是:Traceback (most recent call last): File "/Applications/PyCharm.app/Contents/plugins/python/helpers/pydev/_pydevd_bundle/pydevd_comm.py", line 301, in _on_run r = r.decode('utf-8')UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe5 in pos原创 2021-07-25 08:46:39 · 2117 阅读 · 1 评论 -
解决Hbase报错java.lang.IllegalStateException: The procedure WAL relies on the ability to hsync for....
完整报错为:java.lang.IllegalStateException: The procedure WAL relies on the ability to hsync for proper operation during component failures, but the underlying filesystem does not support doing so. Please check the config value of 'hbase.procedure.store.wal.us原创 2021-07-24 15:07:47 · 781 阅读 · 2 评论 -
Linux/Ubuntu 单机配置Hbase
文章目录1. 安装前先确认版本号2. 下载适当版本的Hbase3. 配置Hbase步骤一:配置JAVA_HOME与选配ZK_HOME步骤二:配置存储位置步骤三:(选配)配置regionservers选配:添加到环境变量4. 启动hbase1. 安装前先确认版本号下载与配置hbase前一定要确认java与hadoop的版本,因为这种类似全家桶的体系,如果版本不匹配会不兼容,可以参考官网的版本对应表:java与Hbase版本对应:http://hbase.apache.org/book.html#basi原创 2021-07-24 11:26:42 · 544 阅读 · 0 评论 -
Linux/Ubuntu 单机安装配置 zookeeper
文章目录下载配置zookeeper运行zookeeper添加zookeeper命令到环境变量下载官网下载页面:https://archive.apache.org/dist/zookeeper/清华源下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/所以可以使用清华源加速下载,比如我要安装3.5.9版本,注意要下载带-bin的安装包!!!:wget https://mirrors.tuna.tsinghua.edu.cn/apac原创 2021-07-24 10:13:03 · 269 阅读 · 0 评论 -
解决zookeeper启动失败Could not find or load main class org.apache.zookeeper.server.quorum.QuorumPeerMain报错
zookeeper的默认日志在:xxxxx/apache-zookeeper-3.5.9/logs目录下,完整报错名称为:Error: Could not find or load main class org.apache.zookeeper.server.quorum.QuorumPeerMain解决方法下载的时候需要下载带-bin的,重新下载并配置即可...原创 2021-07-24 10:06:33 · 1912 阅读 · 0 评论 -
Linux/Ubuntu 安装与单机配置hadoop
文章目录1. 安装2. 配置步骤一:配置JAVA_HOME步骤二:配置端口与文件格式步骤三:配置HDFS文件目录步骤四:配置mapred步骤五:配置yarn步骤六:格式化步骤七:启动hadoop步骤八:打开hadoop测试页面3. 其他配置把hadoop的命令添加进环境变量1. 安装最新版安装网站:https://hadoop.apache.org/releases.html历史版本:http://archive.apache.org/dist/hadoop/core/清华源:https://mir原创 2021-07-23 19:13:01 · 326 阅读 · 1 评论 -
Jedis使用java连接Redis
Maven创建创建一个maven的项目,其中pom.xml依赖为: <dependencies> <!-- https://mvnrepository.com/artifact/redis.clients/jedis --> <dependency> <groupId>redis.clients</groupId> <artifactId>jedi原创 2021-07-20 10:38:37 · 84 阅读 · 0 评论 -
测试连接redis时报错redis.clients.jedis.exceptions.JedisConnectionException: Failed to create socket.
解决方法如果关注Redis的问题,有这么几个方面:配置文件中应该注释69行的127地址:# bind 127.0.0.1配置文件中应该修改修改88行为no:protected-mode no然后可能是防火墙的问题,开端口即可原创 2021-07-19 20:11:59 · 3493 阅读 · 0 评论 -
ubuntu 18.04安装与配置 Redis
安装rediswget http://download.redis.io/releases/redis-5.0.5.tar.gztar -zxvf redis-5.0.5.tar.gzcd redis-5.0.5/然后可能需要安装一下make:sudo yum -y install make原创 2021-07-18 21:03:03 · 497 阅读 · 0 评论 -
redis docker安装、进入命令行后启动服务
下载redis镜像首先查看一下redis是否正确:docker search redis显示:NAME DESCRIPTION STARS OFFICIAL AUTOMATEDredis Redis is an open source key-value store that… 9636 [原创 2021-07-02 20:31:32 · 710 阅读 · 0 评论