自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SuperBoy_Liang的博客

多为自己在平时工作中总结

  • 博客(75)
  • 资源 (2)
  • 收藏
  • 关注

原创 Spark中字符串和json、map格式相互转化

Spark中字符串和json格式相互转化字符串转为mapimport org.json4s.DefaultFormatsimport org.json4s.jackson.JsonMethods.parseval ad = """{"name":"zsd","age":11}"""implicit val formats: DefaultFormats.type = org.json4s.DefaultFormatsval adMap: Map[String, Any] = parse(a

2021-01-19 15:31:30 1285

原创 Kafka架构总结以及常见的面试题总结

kafka名词说明分布式 高吞吐量 消息系统producer:生产者consumer:消费者broker:机器,节点controller:kafka服务器的主节点 负责管理元数据(zk存储一份)follower:kafka服务器的从节点 (同步元数据)topic:主题。类似于关系型数据库中的表partition:一个主题可以有多个分区replica:副本,为了保证数据安全,每个partition可以设置多个副本(leader replica和slave replica)

2020-06-26 16:56:58 540 1

原创 flink-操作redis

redis中存储了部分域名与ip的对应关系数据,由于网络或者其他原因,会导致域名的ip地址为8.8.8.8,所以需要将这部分数据更新,现用flink进行相关操作。

2024-01-29 10:40:49 671

原创 将elasticsearch数据存储到excel中

由于elasticsearch数据在线上,偶尔需要将数据导到本地环境进行分析。目前有需求是将数据导入到excel表中,下面是我在用的实现方案。首先通过elasticdump组件将线上指定的index导出成文本文件。2、将生成的文本文件下载到指定位置存储,以我本地电脑为例。1、将线上elasticsearch数据备份成文件。3、通过python脚本将数据写入到excel。

2024-01-29 10:25:17 1245

原创 常见OLAP对比

但是Clickhouse也有它的局限性,在OLAP技术选型的时候,应该避免把它作为多表关联查询(JOIN)的引擎,也应该避免把它用在期望支撑高并发数据查询的场景,OLAP分析场景中,一般认为QPS达到1000+就算高并发,而不是像电商、抢红包等业务场景中,10W以上才算高并发,毕竟数据分析场景,数据海量,计算复杂,QPS能够达到1000已经非常不容易。Druid 支持低延时的数据摄取,灵活的数据探索分析,高性能的数据聚合,简便的水平扩展。:是在基于数据仓库多维模型的基础上实现的面向分析的各类操作的集合。

2024-01-27 09:45:00 917

原创 华为参与打造的中医药大模型问世

通过整合九为健康在中医药领域的专业能力与华为云在AI大模型领域的技术优势,双方就市场推广、生态合作、人工智能联合创新等领域展开全面合作,携手打造中医药大模型。华为云盘古大模型坚持“AI for Industries”的理念,致力于深耕行业,目前已经推出了金融、政务、医疗、制造、矿山、气象、铁路等领域行业大模型。在医疗领域,通过盘古NLP大模型,利用大数据预训练、对多源丰富知识相结合,并通过持续学习吸收海量文本数据,不断提升模型的效果,提高中药研发效率和质量。

2024-01-27 09:00:00 633

原创 MySQL-删除重复数据

在实际应用中,遇到一个这样的问题,MySQL中存储的数据为资讯类数据,在页面展示时会出现多个平台的新闻报导相同的内容,导致页面会出现重复数据。因为数据是每天定期更新,所以最快捷有效的方式是在更新完数据后增加一个去重操作。写一个定时删除的脚本,每天定时执行,通过对数据中title进行聚合去重:将数据按title分组,取id最小的数据进行记录,然后将id不在该列表的数据删除。该错误大致意思为不能依据某字段值做判断再来更新某字段的值。多一次,就可以避免这个错误。的结果再通过一个中间表。解决方法:select。

2024-01-26 10:24:19 556

原创 统一社会信用代码的编码规则

例如,国家用100000,北京用110000,注册登记时由系统自动生成,体现法人和其他组织注册登记及其登记管理机关所在地,既满足登记管理部门按地区管理需求,也便于社会对注册登记主体所在区域进行识别。例如,机构编制部门可用1表示机关单位,2表示事业单位,3表示由中央编办直接管理机构编制的群众团体;例如,9表示工商,其他登记管理部门可使用相应阿拉伯数字或英文字母表示。统一社会信用代码=登记管理部门代码+机构类别代码+登记管理机关行政区划码+主体标识码(组织机构代码)+校验码】

2024-01-26 10:03:03 831

原创 Doris安装部署文档

Apache Doris 如今在中国乃至全球范围内都拥有着广泛的用户群体,截止目前, Apache Doris 已经在全球超过 2000 家企业的生产环境中得到应用,在中国市值或估值排行前 50 的互联网公司中,有超过 80% 长期使用 Apache Doris,包括百度、美团、小米、京东、字节跳动、腾讯、网易、快手、微博、贝壳等。方面,Doris 采用列式存储,按列进行数据的编码压缩和读取,能够实现极高的压缩比,同时减少大量非相关数据的扫描,从而更加有效利用 IO 和 CPU 资源。

2024-01-25 11:52:58 1450

原创 全国首个!华为5.5G新突破:速率最高超4Gbps

作为5G-A的重要技术之一,三载波聚合(3CC)是5G-A的基础体验网,5G-A三载波聚合可以通过三载波组网方案,结合确定性体验保障等技术,进一步提升网络质量与体验。本次落地的百站三载波聚合选址青岛城区,继旅游景区后,完成高校、医院、步行街、交通枢纽等热点场景覆盖部署,全方位实现5G-A三载波聚合多场景落地验证。两地试点均达成5G-A下行峰值速率超4Gbps突破,标志着山东移动充分具备5G-A技术能力。据了解,5G-A全称5G-Advanced,也被称为5.5G,是5G的技术演进。

2024-01-25 10:36:29 392

原创 鸿蒙不想成为第二个Windows Phone

很多应用初版发布就成了最后一版:不再更新。从Windows Mobile到Windows Phone 7再到Windows Phone 8,每一次更迭微软都会废掉此前的系统内核,更换为新的内核,这不但让微软先前积累的优势、市场、经验化为乌有,而且由于内核变更带来的断层,使得消费者不得不更换手机才能升级到新系统。在18日的发布会上,华为宣布HarmonyOS NEXT的系统底座由华为自研完成,仅支持鸿蒙内核及鸿蒙系统的应用,不再兼容Android应用,也不支持打开APK文件(Android系统应用程序包)。

2024-01-24 16:52:02 877

原创 Hive常见问题汇总

order by:order by是将数据按照指定的列排序输出,并且会改变数据的分区。cluster by:cluster by是对表进行分桶,每个分桶内的数据按照指定的列排序,并且会根据指定的列生成对应的分区文件。sort by:sort by是将数据按照指定的列排序输出,但不改变数据的分区,也就是说,sort by只保证每个分区内的数据有序,但不保证分区之间的顺序。增加Reduce数量:对于数据倾斜比较严重的情况,可以增加Reduce任务的数量,将数据划分到更多的节点上处理,从而减轻单个节点的负担。

2024-01-24 15:02:04 605

原创 数据仓库建模

在ER模型中抽象出了有实体、关系、属性三种类别,在现实世界中,每一个操作型事件,基本都是发生在实体之间的,伴随着这种操作事件的发生,会产生可度量的值,而这个过程就产生了一个事实表,存储了每一个可度量的事件。比如商品,单一主键:商品ID,属性包括产地、颜色、材质、尺寸、单价等, 但并非属性一定是文本,比如单价、尺寸,均为数值型描述性的,日常主要的维度抽象包括:时间维度表、地理区域维度表等。通过将数据按照多个维度进行切片和切块,可以支持复杂的查询和分析需求,如数据切片、钻取、滚动等操作。

2024-01-23 17:02:28 793

原创 数据仓库-相关概念

数据仓库是一个用于集成、存储和管理大量数据的系统。它用于支持企业决策制定过程中的数据分析和报告需求。数据仓库从多个来源收集和整合数据,并将其组织成易于查询和分析的结构。数据仓库的主要目标是提供高性能的数据访问和分析能力,以便用户可以从不同的角度和层次上理解和解释数据。它通常包含历史数据,用于支持趋势分析和预测模型的建立。数据仓库不仅仅是一个存储数据的地方,它还提供了一系列工具和技术来支持数据清洗、转换、集成和加载等过程。

2024-01-23 13:40:45 1629

原创 flume自定义拦截器

flume 自定义拦截器

2024-01-22 15:29:09 566

原创 flume案例

在构建数仓时,经常会用到flume接收日志数据,通常涉及到的组件为kafka,hdfs等。下面以一个flume接收指定topic数据,并存入hdfs的案例,大致了解下flume相关使用规则。

2024-01-22 15:18:21 1220

原创 redis中bitmap应用

redis中bitmap 适用场景

2024-01-05 11:10:32 828 1

原创 elasticsearch查询性能优化方案

以上是一些常见的 Elasticsearch 查询性能优化方案。具体的优化策略应根据实际情况进行调整和实施,并进行性能测试和监测,以获得最佳的查询性能。

2024-01-05 10:17:01 647

原创 探索Elasticsearch内存应用的关键因素

elasticsearch,内存应用相关

2024-01-05 09:33:50 571

原创 事关北京小客车摇号,常见问题答疑来了

北京小客车摇号,常见问题

2024-01-04 16:17:07 988

原创 北京1月1日起,禁止上路!“老头乐”,乐不起来了?

北京“老头乐”退场

2024-01-04 16:06:38 343

原创 Flink之时间和窗口

​ 在事件时间语义下,我们不依赖系统时间,而是基于数据自带的时间戳去定义了一个时钟,用来表示当前时间的进展。于是每个并行子任务都会有一个自己的逻辑时钟,它的前进是靠数据的时间戳来驱动的。​ 我们可以把时钟也以数据的形式传递出去,告诉下游任务当前时间的进展;而且这个时钟的传递不会因为窗口聚合之类的运算而停滞。一种简单的想法是,在数据流中加入一个时钟标记,记录当前的事件时间;这个标记可以直接广播到下游,当下游任务收到这个标记,就可以更新自己的时钟了。

2023-04-07 14:50:00 931

原创 获取手机号码归属地

通过google的libphonenumber解析,格式化,存储和校验国际电话号码。目前针对国内手机号做的验证。

2023-04-06 16:35:17 804

原创 Flink之教程

本教程介绍了Flink的基本概念、架构、数据处理模式和常用API,并提供了详细的案例和图片。Flink是一个强大的流处理引擎,可以用于处理实时数据和批量数据,具有高性能和可扩展性。

2023-03-17 17:10:43 718

原创 Flink之Sink

Flink 的 DataStream API 专门提供了向外部写入数据的方法:addSink。与 addSource 类似,addSink 方法对应着一个“Sink”算子,主要就是用来实现与外部系统连接、并将数据提交写入的;Flink 程序中所有对外的输出操作,一般都是利用 Sink 算子完成的。

2023-03-16 11:48:29 1590

原创 Flink之Transformation

Flink常见的转换算子说明,如map、filter、flatmap、reduce、keyby等

2023-03-14 16:48:44 605

原创 Flink之Source

Flink 可以从各种来源获取数据,然后构建 DataStream 进行转换处理。一般将数据的输入来源称为数据源,而读取数据的算子就是源算子(Source)。所以,Source 就是我们整个处理程序的输入端。

2023-03-10 17:59:06 1047

原创 Zeppelin连接Hbase设置

zepplin和HBase的组合

2023-03-10 17:16:04 193

原创 Flink相关介绍

Flink的定位是:Apache Flink是一个框架和分布式处理引擎,如图所示,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境运行,以内存执行速度和任意规模来执行计算。Flink 框架处理流程。

2023-03-08 15:43:32 589

转载 IDEA所有快捷键大全

idea常用操作快捷键大全

2023-02-03 17:37:38 634

原创 elasticsearch dsl 相关案例说明

elasticsearch 关于聚合、统计、更新、删除等操作

2022-10-21 10:16:49 577

原创 zeppelin部署文档

zeppline部署文档

2022-08-23 17:05:37 1828

原创 spark操作Redis

需求:需要通过spark对redis里面的数据进行实时读写实现方案:通过建立连接池,在每台机器上单独建立连接,进行操作1、利用lazy val的方式进行包装 class RedisSink(makeJedisPool: () => JedisPool) extends Serializable { lazy val pool = makeJedisPool() } object RedisSink { def apply(redisHost: String,

2022-02-28 15:07:03 3248 3

原创 2020-06-30T16:00:00.000Z类型时间中Z和T的含义及转化

T表示分隔符,Z表示的是UTC。UTC:世界标准时间,在标准时间上加上8小时,即东八区时间,也就是北京时间。例如:北京时间:2020-07-01 00:00:00对应的国际标准时间格式为:2020-06-30T16:00:00.000Zdef formatTime(time:String):String = {// val t = "2020-06-30T16:00:00.000Z" val timeRep = time.replace("Z", " UTC") val.

2020-12-09 14:53:57 5420

原创 通过Spark向Kafka写入数据

1、·将KafkaProducer利用lazy val的方式进行包装package cn.com.m.utilimport java.util.concurrent.Futureimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord, RecordMetadata}class KafkaSink[K, V](createProducer: () => KafkaProducer[K, V]) ext

2020-11-09 13:59:19 2456

原创 xshell Hbase shell 输入无法使用退格键删除解决办法

使用Ctrl + Backspace

2020-10-13 17:36:56 382

转载 pandas中DataFrame的连接操作:join

pandas中的DataFrame变量的join连接总是记不住,在这里做一个小结,参考资料是官方文档。pandas.DataFrame.joinDataFrame.join(other, on=None, how=’left’, lsuffix=”, rsuffix=”, sort=False)通过索引或者指定的列连接两个DataFrame。通过一个list可以一次高效的连接多个DataFrame。参数说明other:【DataFrame,或者带有名字的Series,或者DataFram

2020-09-29 15:15:31 4231

转载 【推荐系统】基于用户的协同过滤算法(UserCF)的python实现

1.数据集MovieLensMovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域.数据集的下载地址为:http://files.grouplens.org/datasets/movielens/,有好几种版本,对应不同数据量,本文所用的数据为ml-latest-small.zip。本文主要使用其中ratings.csv、movies.csv两个数据表:ratings数据userId:

2020-09-28 15:37:11 1734

转载 jieba分词算法总结

jieba分词算法总结特点: 支持三种分词模式 –精确模式,试图将句子最精确地切开,适合文本分析; –全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义; –搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 -支持繁体分词 -支持自定义词典 使用: -安装或者将jieba目录放在当前目录或者site-packages目录 算法: -基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) -

2020-09-27 11:09:27 654

原创 Python日常使用相关操作

d = {'one':5,'two':6,'three':3}sorted(d.items(), key=lambda x:x[1], reverse = True)自定义一个字典d,按照value从大到小排序,如果对key排序,用x[0];默认的是从小到大排序,如果是从大到小,需要用reverse = True.注意返回的是一个List,不再是Dict....

2020-09-08 17:32:23 163

clickhouse实践

包含clickhouse相关描述,优缺点描述,安装教程,使用方式,以及现阶段在其他企业的使用情况和应用场景。列举了适用场景和不适用场景,可根据实际情况来判断是否需要使用该组件。描述了为什么要从其他组件迁移到clickhouse的相关原因。

2023-04-06

2016年新闻中文文本.txt

包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。 数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。 可能的用途: 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。

2020-07-30

ZooInspector.zip

zookeeper链接工具,在windows系统上运行,界面化查看zk连接信息,运行脚本位置在build中,双击执行zhixing.bat即可

2020-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除