2019年12月_安然烟火

12月 11月 10月 09月

原创 kafka的特点和优势

kafka的特点和优势一、kafka的特点高吞吐量：Kafka 每秒可以生产约 25 万消息（50 MB），每秒处理 55 万消息（110 MB）　　持久化数据存储：可进行持久化操作。将消息持久化到磁盘，因此可用于批量消费，例如 ETL，以及实时应用程序。通过将数据持久化到硬盘以及replication 防止数据丢失。　　分布式系统易于扩展：所有的 producer、broker 和 co...

2019-12-30 13:44:41 1007

原创 SpringBoot发送http请求

SpringBoot发送http请求添加依赖<dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-starter-feign</artifactId> <version>1.4.6.REL...

2019-12-24 10:40:26 721 1

原创 spark端口作用配置及修改

spark端口作用配置及修改Master节点的web端口是8080 仅在 standalone模式使配置方式在spark-env.sh加一行export SPARK_MASTER_WEBUI_PORT=8080work节点的web端口是8081配置方式在spark-env.sh加一行export SPARK_WORKER_WEBUI_PORT=8081Master通信端口是707...

2019-12-18 15:42:24 7854

原创 kafka常用命令

kafka常用命令1）、创建topic：./bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test2）、查看topic：./bin/kafka-topics.sh --list --zookeeper localhost:218...

2019-12-18 14:31:07 587

原创多线程提高spark streaming数据写入到数据库

多线程提高spark streaming数据写入到数据库需求集群环境资源有限，需要跑多个spark streaming任务，每个任务必须占据1核，cpu利用率很低，需要对数据进行实时统计更新到数据库mysql给业务实时展示，数据聚合程度较低每批数据对数据库交互过多，正常提交submit提交使用一个核只能单线程操作数据库，数据高峰会出现延迟现象，如何不增加资源情况提高效率？Spark Stre...

2019-12-16 15:23:54 920

原创 filebeat深度剖析与实践

容器日志采集利器：filebeat深度剖析与实践在云原生时代和容器化浪潮中，容器的日志采集是一个看起来不起眼却又无法忽视的重要议题。对于容器日志采集我们常用的工具有filebeat和fluentd，两者对比各有优劣，相比基于ruby的fluentd，考虑到可定制性，我们一般默认选择golang技术栈的filbeat作为主力的日志采集agent。相比较传统的日志采集方式，容器化下单节点会运行更多...

2019-12-04 17:00:47 2362

wordVectors.npy，wordsList.npy，idsMatrix.npy

nlp情感分析的npy文件wordVectors.npy，wordsList.npy，idsMatrix.npy

2020-09-18

chineseStopWords.txt

中文停用词，分词必备，chineseStopWords.txt。

2020-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人