段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有5项申请发明专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1996篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为323万次。
展开
-
自然语言处理NLP系列:HanLP在线交互环境体验
自然语言处理NLP系列:HanLP在线交互环境体验欢迎来到HanLP在线交互环境,这是一个Jupyter记事本,可以输入任意Python代码并在线执行。请点击左上角【Run】来运行这篇NLP教程。安装量体裁衣,HanLP提供RESTful(云端)和native(本地)两种API,分别面向轻量级和海量级两种场景。无论何种API何种语言,HanLP接口在语义上保持一致,你可以任选一种API来运行本教程。轻量级RESTful API仅数KB,适合敏捷开发、移动APP等场景。简单易用,无需GPU配环境,原创 2021-09-04 09:42:42 · 525 阅读 · 0 评论 -
图神经网络系列-BiNE算法
图神经网络系列-BiNE算法BiNE算法论文提出了一种二部网络的表示学习方法。虽然现有的工作已经开发了各种网络数据嵌入方法,但它们主要集中在一般的同构网络上,而忽略了二部网络的特殊性质。因此,对于嵌入二部网络,这些方法可能是次优的。在本文中,论文提出了一种新的学习二部网络顶点表示的方法BiNE,简称二部网络嵌入。通过有目的地执行有偏随机游动,生成的顶点序列能够很好地保持原始二部网络中顶点的长尾分布。论文提出了一个新的优化框架,该框架考虑了学习顶点表示时的显式关系(即观察到的链接)和隐式关系(即未观察到但可原创 2021-08-01 18:03:52 · 727 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink写出多个parquet小文件处理方法、Presto的介绍与使用场景
Flink大数据实时计算系列-Flink写出多个parquet小文件处理方法、Presto的介绍与使用场景 Presto的安装与使用目录 Flink写出多个parquet小文件处理方法Presto的介绍与使用场景Presto的安装与使用Flink参考链接Flink系列博客Flink写出多个parquet小文件处理方法Presto的介绍与使用场景Presto的安装与使用Flink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Fl原创 2021-07-30 12:47:47 · 652 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的列式格式parquet压缩保存
Flink大数据实时计算系列-Flink的列式格式parquet压缩保存目录 Flink的列式格式parquet压缩保存Flink自定义压缩类实现hive验证parquet格式Flink参考链接Flink系列博客Flink的列式格式parquet压缩保存ParquetAvroWriterspublic class ParquetAvroWriters { public static <T extends SpecificRecordBase> ParquetWriterFacto原创 2021-07-28 12:57:41 · 632 阅读 · 2 评论 -
Flink大数据实时计算系列-Flink的列式格式parquet保存
Flink大数据实时计算系列-Flink的列式格式parquet保存Flink的列式格式parquet保存 package com.flinkniu.flink.file;import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.api.common.serialization.SimpleStringEncoder;import org.apache.flink.a原创 2021-07-27 22:00:18 · 518 阅读 · 0 评论 -
机器学习深度学习高阶内容系列-kaggle广告点击欺诈识别实战
机器学习深度学习高阶内容系列-kaggle广告点击欺诈识别实战中国是全球最大的智能移动设备市场,每月有超过10亿台智能移动设备投入使用 。TalkingData是中国最大的独立大数据服务平台,覆盖全国70%以上的活跃移动设备。每天处理30亿次点击,其中90%是潜在的欺诈。目前防止应用程序开发人员点击欺诈的方法是测量用户在其产品组合中的点击历程,并标记产生大量点击但最终不会安装应用程序的IP地址。根据这些信息,建立了一个IP黑名单和设备黑名单。Kaggle提供了一个覆盖了4天内约2亿次点击的数据集,本案例的原创 2021-07-27 19:48:38 · 1020 阅读 · 0 评论 -
机器学习深度学习高阶内容系列-Python实现凸优化求解器
机器学习深度学习高阶内容系列-Python实现凸优化求解器CVXOPT是一个基于Python编程语言的凸优化的免费软件包。它可以与交互式Python解释器一起使用,通过执行Python脚本在命令行上使用,或者通过Python扩展模块集成到其他软件中。它的主要目的是通过构建Python广泛的标准库和Python作为高级编程语言的优势,使凸优化应用程序的软件开发变得简单明了。CVXOPT用两个矩阵对象扩展了内置Python对象:一个用于密集矩阵的矩阵对象和一个用于稀疏矩阵的spmatrix对象。密集矩阵和稀原创 2021-07-25 18:07:40 · 1260 阅读 · 0 评论 -
Flink大数据实时计算系列-列式存储parquet文件格式介绍、Flink进行rowformat格式文件保存
Flink大数据实时计算系列-列式存储parquet文件格式介绍 Flink进行rowformat格式文件保存列式存储parquet文件格式介绍Hive中创建表 采用parquet格式Flink进行rowformat格式文件保存Flink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flink系列博客Flink 第一个 JAVA代码Flink JAVA Lambda 实原创 2021-07-23 12:54:45 · 484 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的累加器和计数器
Flink大数据实时计算系列-Flink的累加器和计数器目录 Flink的累加器和计数器有界数据流无界数据流Flink参考链接Flink系列博客Flink的累加器和计数器有界数据流案例代码package com.flinkniu.flink.windows;import org.apache.flink.api.common.JobExecutionResult;import org.apache.flink.api.common.accumulators.IntCounter;impo原创 2021-07-16 13:01:44 · 1152 阅读 · 1 评论 -
Flink大数据实时计算系列-Flink的processFunction TimerSerivce删除多余计数器
Flink大数据实时计算系列-Flink的processFunction TimerSerivce删除多余计数器Flink的processFunction TimerSerivce删除多余计数器案例代码package com.flinkniu.flink.windows;import org.apache.flink.api.common.functions.ReduceFunction;import org.apache.flink.api.common.state.ReducingSta原创 2021-07-15 13:08:25 · 180 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的processFunction TimerService结合状态使用
Flink大数据实时计算系列-Flink的processFunction TimerService结合状态使用Flink的processFunction TimerService结合状态使用案例代码package com.flinkniu.flink.windows;import org.apache.flink.api.common.functions.ReduceFunction;import org.apache.flink.api.common.state.ReducingState;原创 2021-07-14 12:31:43 · 199 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的processFunction TimerService的基础用法
Flink大数据实时计算系列-Flink的processFunction TimerService的基础用法目录 Flink的processFunction TimerService的基础用法Flink参考链接Flink系列博客Flink的processFunction TimerService的基础用法Flink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flink系列博客Flink 第一原创 2021-07-09 12:43:03 · 260 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的windows join
Flink大数据实时计算系列-Flink的windows join目录 Flink的windows joinFlink参考链接Flink系列博客Flink的windows joinFlink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flink系列博客Flink 第一个 JAVA代码Flink JAVA Lambda 实现Flink JAVA Funcation 实现Fli原创 2021-07-08 12:25:48 · 186 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的windowsAll用法
Flink大数据实时计算系列-Flink的windowsAll用法Flink的windowsAll用法countWindowAllpackage com.flinkniu.flink.windows;import org.apache.flink.api.common.functions.ReduceFunction;import org.apache.flink.api.java.functions.KeySelector;import org.apache.flink.api.java.t原创 2021-07-07 12:17:19 · 1432 阅读 · 0 评论 -
NLP自然语言处理系列-Google BERT源码学习
NLP自然语言处理系列-Google BERT源码学习论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》引入了一个新的语言表示模型BERT,它代表来自Transformers的双向编码器表示。与最近的语言表示模型不同,BERT的设计是通过在所有层次上对左右上下文进行联合条件作用,从未标记文本中预训练深层双向表示。因此,预先训练好的BERT模型只需要一个额外的输出层就可以进行微调,从而为各原创 2021-07-04 21:18:15 · 201 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的windows的窗口函数练习
Flink大数据实时计算系列-Flink的windows的窗口函数练习目录 Flink的windows的窗口函数练习使用reduce案例代码使用AggregateFunction案例代码apply 方法获取窗口全量数据Flink参考链接Flink系列博客Flink的windows的窗口函数练习使用reduce案例代码package com.flinkniu.flink.windows;import org.apache.flink.api.common.functions.ReduceFunc原创 2021-07-03 09:59:55 · 303 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的Global Windows使用(trigger、evictor)
Flink大数据实时计算系列-目录 Flink的Global Windows使用Flink参考链接Flink系列博客Flink的Global Windows使用package com.flinkniu.flink.windows;import org.apache.flink.api.java.functions.KeySelector;import org.apache.flink.api.java.tuple.Tuple3;import org.apache.flink.configu原创 2021-07-02 12:42:27 · 621 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的Session Windows使用
Flink大数据实时计算系列-Flink的Session Windows使用目录 Flink的Session Windows使用Flink参考链接Flink系列博客Flink的Session Windows使用示例:不能按用户点击时间,也不能按用户点击次数统计,需按用户Session统计时间窗口。代码实战package com.flinkniu.flink.windows;import jdk.nashorn.internal.runtime.regexp.joni.Config;im原创 2021-07-01 21:52:13 · 335 阅读 · 1 评论 -
Flink大数据实时计算系列-Flink的Sliding Windows使用
Flink大数据实时计算系列-Flink的Sliding Windows使用目录 Flink的Sliding Windows使用Flink参考链接Flink系列博客Flink的Sliding Windows使用Flink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flink系列博客Flink 第一个 JAVA代码Flink JAVA Lambda 实现Flink JAVA Fu原创 2021-07-01 20:00:25 · 349 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的Keyed Windows 对比 Non-Keyed Windows的区别
Flink大数据实时计算系列-Flink的Keyed Windows 对比 Non-Keyed Windows的区别目录 Flink的Keyed Windows 对比 Non-Keyed Windows的区别Flink参考链接Flink系列博客Flink的Keyed Windows 对比 Non-Keyed Windows的区别Flink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flin原创 2021-06-30 21:30:42 · 456 阅读 · 1 评论 -
Flink大数据实时计算系列-Flink窗口如何处理延时数据
Flink大数据实时计算系列-Flink窗口如何处理延时数据目录 Flink窗口如何处理延时数据Flink参考链接Flink系列博客Flink窗口如何处理延时数据Flink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flink系列博客Flink 第一个 JAVA代码Flink JAVA Lambda 实现Flink JAVA Funcation 实现Flink JAVA Fu原创 2021-06-29 21:37:16 · 640 阅读 · 1 评论 -
Flink大数据实时计算系列-Flink生成递增和延时的Watermark方法
Flink大数据实时计算系列-Flink生成递增和延时的Watermark方法目录 Flink生成递增的Watermark方法Flink生成延时的Watermark方法Flink参考链接Flink系列博客Flink生成递增的Watermark方法TimestampWatermarkMethod4package com.flinkniu.flink.windows;import org.apache.flink.configuration.Configuration;import org.ap原创 2021-06-28 12:37:20 · 215 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的watermarks的作用
Flink大数据实时计算系列-Flink的watermarks的作用目录 Flink的watermarks的作用Flink有序流或无充流中watermarks的作用Flink并行流中的WatermarksFlink自定义生成Timestamp和Watermark 两种方法Flink Source发送emitWatermarkKafkaFetcher 的emitRecordsWithTimestampssetStreamTimeCharacteristicassignTimestampsAndWaterma原创 2021-06-27 22:04:18 · 199 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的time介绍
Flink大数据实时计算系列-Flink的time介绍目录 Flink的time介绍Flink TumblingProcessingTimeWindows 案例Flink参考链接Flink系列博客Flink的time介绍Flink TumblingProcessingTimeWindows 案例windowAll @PublicEvolving public <W extends Window> AllWindowedStream<T, W> wind原创 2021-06-27 17:02:30 · 497 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的KafkaConsumer checkpoint容错原理
Flink大数据实时计算系列-Flink的KafkaConsumer checkpoint容错原理目录 Flink的KafkaConsumer checkpoint容错原理FlinkKafkaConsumerFlink参考链接Flink系列博客Flink的KafkaConsumer checkpoint容错原理FlinkKafkaConsumerpackage com.flinkniu.flink.source;import org.apache.flink.api.common.rest原创 2021-06-26 19:01:48 · 232 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的Operator State与Keyed State的Redistribute
Flink大数据实时计算系列-Flink的Operator State与Keyed State的Redistribute目录 Flink的Operator State与Keyed State的RedistributeFlink参考链接Flink系列博客Flink的Operator State与Keyed State的RedistributeFlink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Fli原创 2021-06-25 12:42:12 · 253 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的savepoint
Flink大数据实时计算系列-Flink的savepoint目录 Flink的savepointname案例实战Flink参考链接Flink系列博客Flink的savepointjobidyarn模式name案例实战package com.flinkniu.flink.operator;import org.apache.flink.api.common.functions.FilterFunction;import org.apache.flink.api.c原创 2021-06-24 21:10:11 · 291 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的state backend使用
Flink大数据实时计算系列-Flink的state backend使用目录 Flink的state backendFlink的state backend使用FileSourceRestartStateBackendFileCountryDictSourceFuntionFileSourceRestartStateBackendFileSourceOperatorStateListCheckpointedStateBackendFileCountryDictSourceOperatorStateListC原创 2021-06-24 19:58:55 · 219 阅读 · 1 评论 -
Flink大数据实时计算系列-Flink Exactly Once及Flink的状态存储State Backend
Flink大数据实时计算系列-Flink Exactly Once及Flink的状态存储State Backend目录 Flink的状态存储State BackendFlink参考链接Flink系列博客#Flink Exactly OnceFlink的状态存储State BackendFlink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flink系列博客Flin原创 2021-06-24 12:53:00 · 247 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的CheckPoint原理 Flink分布式环境下的CheckPoint原理
Flink大数据实时计算系列-Flink的CheckPoint原理 Flink分布式环境下的CheckPoint原理Flink的CheckPointFlink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flink系列博客Flink 第一个 JAVA代码Flink JAVA Lambda 实现Flink JAVA Funcation 实现Flink JAVA Fun原创 2021-06-23 21:35:22 · 258 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的BroadcastState的使用
Flink大数据实时计算系列-Flink的BroadcastState的使用目录 Flink的BroadcastState的使用Flink参考链接Flink系列博客Flink的BroadcastState的使用Flink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flink系列博客Flink 第一个 JAVA代码Flink JAVA Lambda 实现Flink JAVA Func原创 2021-06-22 21:55:55 · 314 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的Keyed state的使用
Flink大数据实时计算系列-Flink的Keyed state的使用目录 Flink 的Keyed state的使用Flink参考链接Flink系列博客Flink 的Keyed state的使用Flink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flink系列博客Flink 第一个 JAVA代码Flink JAVA Lambda 实现Flink JAVA Funcation 实原创 2021-06-21 20:43:32 · 273 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的Keyed State之过期超时策略
Flink大数据实时计算系列-Flink的Keyed State之过期超时策略目录 Flink的Keyed StateFlink的Keyed State代码实战FileSourceOperatorKeyStateCheckpointedFileCountryDictSourceOperatorStateKeyCheckpointedFunctionFlink参考链接Flink系列博客Flink的Keyed StateTTL在hbase的应用:TTL在redis的应用:Flink的Ke原创 2021-06-20 21:54:27 · 470 阅读 · 2 评论 -
Flink大数据实时计算系列-Flink的operatorState的ListCheckpointed接口使用
Flink大数据实时计算系列-Flink的operatorState的ListCheckpointed接口使用目录 Flink的operatorState的ListCheckpointed接口使用ListCheckpointed接口使用案例实战FileSourceOperatorStateListCheckpointedFileCountryDictSourceOperatorStateListCheckpointedFunction测试运行Flink参考链接Flink系列博客Flink的operato原创 2021-06-20 20:51:19 · 250 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的checkpoint Flink的operatorState的CheckpointedFunction接口使用
Flink大数据实时计算系列-Flink的checkpoint目录 Flink的checkpointFlink参考链接Flink系列博客Flink的checkpointFlink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flink系列博客Flink 第一个 JAVA代码Flink JAVA Lambda 实现Flink JAVA Funcation 实现Fli原创 2021-06-20 19:37:34 · 429 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink的state介绍、Flink丰富的状态访问、Flink状态的分类
Flink大数据实时计算系列-Flink的state介绍、Flink丰富的状态访问、Flink状态的分类目录 Flink的state介绍Flink丰富的状态访问Flink状态的分类Flink参考链接Flink系列博客Flink的state介绍Flink丰富的状态访问Flink状态的类型划分Flink状态的分类Flink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flink系列原创 2021-06-19 20:59:34 · 282 阅读 · 2 评论 -
Flink大数据实时计算系列-Flink程序恢复机制
Flink大数据实时计算系列-Flink程序恢复机制目录Flink程序恢复机制Flink程序恢复机制案例实战FileSourceRestart设置Flink程序恢复代码Flink参考链接Flink系列博客Flink程序恢复机制Flink程序恢复机制案例实战FileSourceRestartpackage com.flinkniu.flink.state;import com.flinkniu.flink.source.FileCountryDictSourceFuntion;impor原创 2021-06-19 17:42:07 · 236 阅读 · 0 评论 -
Flink大数据实时计算系列-kafka的sink使用方法
Flink大数据实时计算系列-kafka的sink使用方法目录 kafka的sink使用方法Flink参考链接Flink系列博客kafka的sink使用方法Flink参考链接【Flink 官网】Apache Flink 【海牛学院】海牛社区资料【海牛学院】大数据2020最新版Flink-青牛老师倾力打造Flink系列博客Flink 第一个 JAVA代码Flink JAVA Lambda 实现Flink JAVA Funcation 实现Flink JA原创 2021-06-19 15:37:06 · 696 阅读 · 0 评论 -
Flink大数据实时计算系列-Flink自定义sinkfunction
Flink大数据实时计算系列-Flink自定义sinkfunction目录 Flink自定义sinkfunctionFlink参考链接Flink系列博客Flink自定义sinkfunction@Publicpublic abstract class RichSinkFunction<IN> extends AbstractRichFunction implements SinkFunction<IN> { private static final原创 2021-06-16 21:44:18 · 594 阅读 · 2 评论 -
Flink大数据实时计算系列-Flink内置的Sink
Flink大数据实时计算系列-Flink内置的Sink目录 Flink内置的Sink基于文件输出Socket输出print输出基于文件输出writeAsText案例实战基于Socket输出案例实战Flink参考链接Flink系列博客Flink内置的Sink基于文件输出writeAsText @Deprecated @PublicEvolving public DataStreamSink<T> writeAsText(String path) {原创 2021-06-16 20:52:06 · 365 阅读 · 0 评论