Alex的博客

十年+软件产品研发经验，主要为java和大数据方向，对数仓、数据治理等理论体系和项目有较多经验，目前工作担任公司数据架构师，负责数据平台产品技术选型、性能调优、框架搭建、后端核心代码开发等工作；文章内容多为总结自己工作中的经验，主要为后端java和大数据方

原创【Conda】超详细的linux-conda环境安装教程

Conda是在Windows、macOS和Linux上运行的开源软件包管理系统和环境管理系统。可以快速安装、运行和更新软件包及其依赖项。可以轻松地在本地计算机上的环境中创建，保存，加载和切换。它是为Python程序创建的，但可以打包和分发适用于任何语言的软件。目前conda的发行版本分为anaconda、miniconda两种，安装了ananconda或miniconda的完整版，就默认安装了conda。anaconda会包含一些常用包的版本，miniconda则是精简版，两者安装均可。

2024-01-24 22:15:00 53327 19

原创超详细的Hadoop集群部署

本文建立在已经把虚拟机ip环境等已经下载好情况下。那么，直接开始今天的正题：搭建集群环境准备这里提供两种思路：一种是将一台直接搭建好，后面的克隆或者copy虚拟机一种是3台并进，多次进行虚拟机之间文件互传，各有利弊，第一种方式容易漏改ip等问题，第二种方式简单明了，一遍过手，就是步骤稍微多一点，这里采用第二种方式：1、配置服务器（我这里是以3台为例）1个主节点：hadoop1(...

2019-11-08 00:07:13 31708 2

原创关于java 实体类与json 实体类集合与jsonArray的相互转换

最近项目中要多次使用到java 实体类与json 实体类集合与jsonArray的相互转换，接下来把遇到的问题和方法分享一下：

2019-10-23 17:03:14 5231 1

原创关于Map的几种遍历方式

Map之遍历：关于集合这块需要写的东西其实挺多的，集合有自己的顶级接口Collection，底下又有map和list两个接口，接下来我们谈一谈关于map集合方面的东西。map是java中非常常用的一种数据结构，提供get和put两个常用的方法；map虽然继承了Collection，但却没有实现Collection的Iterator 方法，自身没有迭代器来遍历元素接下来言归正传，对于map的遍历也是...

2018-03-16 10:16:29 488

原创【开发规范01】-华为编程军规

本文提出了一系列编程规范，旨在提升代码质量和研发人员价值。规范包括：避免使用无意义数字常量，限制方法参数不超过五个，避免返回null而应抛异常或特例对象，确保资源释放，细化异常处理，避免条件分支遗漏，覆写equals()时同时覆写hashCode()，禁止循环中创建新线程而使用线程池，精确计算时避免浮点数而用BigDecimal或整型。此外，强调开发效率和协作，建议小任务提交、遵循命名规范、避免过度设计、减少状态保存、使用日志调试、添加必要注释、跨功能审查代码及及时沟通解决问题，以提升项目质量

2024-09-12 23:15:00 991

原创【Mysql】系统服务启动访问报错问题处理：this is incompatible with sql_mode=only_full_group_by

which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_mode=only_full_group。通过对问题的查找分析，查看官方文档发现从 MySQL 5.7.5 开始，默认 SQL 模式包括 ONLY_FULL_GROUP_BY。（在 5.7.5 之前，MySQL 不检测函数依赖，并且默认不启用 ONLY_FULL_GROUP_BY。）这可能会导致一些sql语句失效

2024-09-05 22:15:00 932 1

原创记录一次Nacos安装启动异常的问题

【代码】记录一次Nacos安装启动异常的问题。今天在Linux中启动Nacos遇到了一个这样的错误：ERROR: Please set the JAVA_HOME variable in your environment, We need java(x64)! jdk8 or later is better! !!

2024-08-06 22:15:00 408

原创 Langchain 对pdf,word,txt等不同文件的加载解析

项目中遇到各种数据资源想要加载近langchain构建本地知识ai系统，怎么加载对应的文件格式呢，一起研究下。

2024-07-18 23:15:00 1270

原创 ObjectMapper的使用和使用过程中引发的思考

在Java开发中，ObjectMapper是Jackson库的核心类，用于将Java对象序列化为JSON字符串，或者将JSON字符串反序列化为Java对象。由于其功能强大且易于使用，ObjectMapper成为了处理JSON数据的常用工具，它可以帮助我们快速的进行各个类型和Json类型的相互转换。

2024-06-27 23:15:00 1513

原创【JVM】JVisualVM的介绍、使用和GC过程

VisualVM介绍VisualVM 是的profile子项目，已在JDK6.0 update 7 中自带，能够监控线程，内存情况，查看方法的CPU时间和内存中的对象，已被GC的对象，反向查看分配的堆栈(如100个String对象分别由哪几个对象分配出来的)。在JDK_HOME/bin(默认是C:\Program Files\Java\jdk1.6.0_13\bin)目录下面，有一个jvisualvm.exe文件，双击打开，从UI上来看，这个软件是基于NetBeans开发的了。

2024-06-13 21:45:00 1313

原创 LLM大语言模型学习资料网站（git、gitee、等）

LLM的火爆程度不用多说，如果想深入理解大语言模型（LLM），一些必要的论文还是要读的。以下是汇总的LLM大语言模型学习资料网站（Git、Gitee、模型社区等）

2024-05-30 21:45:00 1133

原创 Chatglm中 system、user等角色的作用

在ChatGPT或类似的人工智能聊天模型中，。此外，还有一个常见的角色是Assistant（助手角色），它通常是基于机器学习技术的AI，负责与用户进行交互，回答问题，提供服务，并根据用户的输入不断学习和改进。总的来说，了解这些角色的作用可以帮助用户更有效地与AI聊天模型进行交流，并且可以根据需要定制System角色以获得更加个性化的对话体验。

2024-05-22 20:15:00 1485

转载【LLM02】基于LangChain+LLM的本地知识库问答

2023年7月，GitHub上有一个利用langchain思想实现的基于本地知识库的问答应用：langchain-ChatGLM (这是其GitHub地址，当然还有和它类似的但现已支持Vicuna-13b的项目，比如LangChain-ChatGLM-Webui)，目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案

2024-05-08 22:03:36 353 2

原创 HTTP方式在线访问Hadoop HDFS上的文件解决方案

为了通过HTTP方式在线访问HDFS上的文件，您可以利用WebHDFS REST API或者HttpFS Gateway这两种机制实现。1：httpfs是cloudera公司提供的一个hadoop hdfs的一个http接口，通过WebHDFS REST API 可以对hdfs进行读写等访问2：与WebHDFS的区别是不需要客户端可以访问hadoop集群的每一个节点，通过httpfs可以访问放置在防火墙后面的hadoop集群3：httpfs是一个Web应用,部署在内嵌的tomcat中。

2024-04-28 21:45:00 2147 1

转载【LLM01】基于LangChain+LLM的本地知识库问答：什么是LangChain及langchain的整体组成架构

过去半年，随着ChatGPT的火爆，直接带火了整个LLM这个方向，然LLM毕竟更多是基于过去的经验数据预训练而来，没法获取最新的知识，以及各企业私有的知识为了获取最新的知识，ChatGPT plus版集成了bing搜索的功能，有的模型则会调用一个定位于 “链接各种AI模型、工具”的langchain的bing功能为了处理企业私有的知识，要么基于开源模型微调，要么更可以基于langchain里集成的向量数据库和LLM搭建本地知识库问答(此处的向量数据库的独特性在哪呢？

2024-04-10 21:45:00 475

原创大模型系列——解读RAG

RAG即检索增强生成，为 LLM 提供了从某些数据源检索到的信息，并基于此修正生成的答案。RAG 基本上是 Search + LLM 提示，可以通过大模型回答查询，并将搜索算法所找到的信息作为大模型的上下文。查询和检索到的上下文都会被注入到发送到 LLM 的提示语中。嵌入式搜索引擎可以通过 Faiss 来实现，向量搜索领域成为了RAG的一个助力。像pinecone 这样的向量数据库可以构建开源搜索索引，为输入文本增加了额外的存储空间，还增加了一些其他工具。关于向量数据库，可以参考解读向量数据库。

2024-04-07 20:15:00 2766

原创提升LLM效果的几种简单方法

对于知识库问答，现在有两种方案，一种基于llamaindex，一种基于langchain +LLM,我们目前采用的就是后者，先来看一下这个方式的技术架构图：使用 LangChain 或 LlamaIndex 等框架，可以使用大约五行代码就构建一个简单的问答系统，例如文档的聊天机器人。但是，用这五行代码构建的机器人效果就可能差强人意了。接下来我们说一下如何从理论上来提高LLM的问答效果。

2024-04-01 23:15:00 1114

原创【ELK05】es的java-api操作-Java High Level REST Client常用功能

ES支持多种语言客户都安，包括ruby js python java go .net等，其中java目前最新版本的客户都安支持2种方式。一种是旧版已经过时的transport client ，一种是，前者是通过tcp协议链接访问es，后者就是java代码实现的REST访问。

2024-02-26 14:22:03 523

原创【Centos8】RuntimeError: The NVIDIA driver on your system is too old (found version 11060)

最近在做大模型方面的产品，部署模型时启动模型遇到这样一个问题：RuntimeError: The NVIDIA driver on your system is too old (found version 11060). Please update your GPU driver by downloading and installing a new version from the URL: 驱动版本跟我们的模型不兼容

2024-01-18 21:45:00 2028

原创【DolphinScheduler】datax读取hive分区表时，空分区、分区无数据任务报错问题解决

【DolphinScheduler】datax读取hive分区表时，空分区、分区无数据任务报错问题解决。最近在使用海豚调度DolphinScheduler的Datax组件时，遇到这么一个问题：之前给客户使用海豚做的离线数仓的分层搭建，一直都运行好好的，过了个元旦，这几天突然在数仓做任务时报错

2024-01-11 22:45:00 1650

原创超详情的Windows搭建FTP服务器教程-（老奶奶来了也能搭好）

本文为大家分享了Windows搭建FTP服务器详细图文教程，供大家参考，搭建之前，先确保你的电脑上：控制面板 >> 程序 >> 启用或关闭windows功能 >> windows功能弹窗里面包含 Internet Information Services 这个选项功能，否则无法搭建，如果没有的话，建议重装系统，因为有些精简版的非正版windows，这个功能被精简掉了（一定要确保自己电脑的当前用户具备操作系统权限。

2024-01-04 21:15:00 11605 19

原创记一次接口交互is开头的属性序列化后“is”丢失问题

查看发现该字段为boolean类型的isIsRefresh，但传给第三方json串里字段变为了isRefresh，发现类中定义的字段确实为isIsRefresh，与设计文档上相同，并非定义错误。因此猜测是在服务传递时导致is丢失。对于这个问题，我还是要说一句：既然有规范请严格按照规范，起这种命名害人害己，请大家谨记，以下是阿里开发规范，仅供参考！

2023-12-26 21:45:00 1680

转载三个ssh连接工具finalshell,windterm,mobaxterm使用体验对比及注意事项

再找的话就是sftp位置吧,个人认为finalshell那种是最好的,在下半部分,这个是在左侧,且无法调整位置,windterm可以自己调整.说到开源ssh工具,当然还有鼻祖putty等,但是毕竟功能太简陋了,不适合我这类懒人,其他的诸如tabby,Electerm等试用了一下,感觉不适合自己,如果大家有什么好用的工具也可以推荐一下.之前有过传言说程序里埋了挖矿程序,个人认为不大可能是原作者所为,应该是某些破解版添加的,因为程序是开源的,源代码一看便知,况且也有收费版,没必要搞这个.

2023-12-20 21:30:00 3344

原创【ELK04】ES 分词计算、IK分词器安装使用手册和热词动态更新

文本分析使Elasticsearch能够执行全文搜索，其中搜索返回所有相关结果，而不仅仅是精确匹配.如果您搜索"王者荣耀"，您可能希望包含"王者","荣耀"和"王者荣耀"的文档，还可能希望包含相关"王"或"者"的文档。ES中为了方便查询,提供多维度的查询功能,对存储在索引中的文档进行分词计算,但是文本内容不同,类型不同,语言不同分词计算逻辑就不会一样.内置的分词器可以处理一下通用场景,对于中文来讲常用的是IK分词器,ES也支持IK分词器的插件,IK分词器是基于词典的分词器,这让我们可以。

2023-12-14 22:45:00 1955

原创【ELK03】ES 索引的Mapping映射详解、数据类型和settings属性设置

ES 索引的映射和设置&以及分词计算和热词更新操作

2023-12-08 21:30:00 2214 1

原创【ELK02】ES的重要核心概念和索引常用操作-索引文档管理、文档搜索

ES的核心概念和常用操作-索引数据和索引管理

2023-11-24 23:15:00 1253

原创【ELK01】ELK简介以及ElasticSearch安装、ES客户端工具-Head安装、报错问题整理

ELK 是elastic公司提供的一套完整的日志收集以及展示的解决方案，是三个产品的首字母缩写，分别是ElasticSearch、Logstash 和 Kibana。head插件是一个可以帮助用户代理访问es的,可以图形界面展示数据的插件.我们配置了es的跨域开启,所以为了方便观察,我们可以安装head插件。

2023-11-16 22:45:00 949

原创线程池是什么？如何合理的配置线程池核心线程数？

CPU密集任务只有在真正的多核CPU上才可能得到加速（通过多线程），而在单核CPU上，无论你开几个模拟的多线程该任务都不可能得到加速，因为CPU总的运算能力就那些。所以在IO密集型任务中使用多线程可以大大的加速程序运行，即使在单核CPU上，这种加速主要就是利用了被浪费掉的阻塞时间。CPU密集的意思是该任务需要大量的运算，而没有阻塞，CPU一直全速运行。由于IO密集型任务线程并不是一直在执行任务，则应配置尽可能多的线程，如。IO密集型，即该任务需要大量的IO，即大量的阻塞。阻塞系数在0.8~0.9之间。

2023-10-31 22:15:00 902

原创 win10启动venv报错：无法加载文件 venv\Scripts\activate.ps1，因为在此系统上禁止运行脚本。

最近需要用到python开发，切换虚拟环境时，在win10系统上安装编辑器后创建了虚拟环境，但是执行activate时报错：.\venv\Scripts\activate

2023-10-24 22:45:00 2871

原创 Java实现业务异步的几种方案

正常操作我们需要web发起请求调用，等到三方接口返回后然后将结果返给前端应用，但是在某些操作中，如果某一个业务非常耗时，如果一直等其他业务响应后再给前端，那不仅给用户的体验极差，而且可能会出现服务卡死的情况，因此在这里做一下相关线程操作的记录，以供后续参考！

2023-10-18 23:15:00 1776

原创 Java中的抽象类和接口（Abstract Class and Interface）的区别

在面向对象的编程中，对象都是通过class来描述的，如果一个类中没有包含足够的信息来描绘一个具体的对象，这样的类就是抽象类。抽象类需要用abstract关键字来定义，表示一个类为抽象类，抽象类是对一类事物共性的一种抽象，实现公共的行为，并且构造出一个固定的一组行为的抽象描述，但是这组行为却能够有任意个可能的具体实现方式。抽象类中用abstract表示就是个抽象类，一般都有抽象方法，如果定义没有抽象方法的抽象类，在语法层面是可行的，但是实际并很少这么用。

2023-10-10 22:45:00 347

原创基于若依框架进行二次开发优化指南

（RuoYi）开源框架是一个功能强大的Java开发框架，专注于快速构建企业级后台管理系统。它提供了一套丰富的功能和模块，可以帮助开发人员快速搭建稳定、高效的管理系统。本篇博客将大家了解若依框架的基本概念和使用方法，帮助您快速上手。本文主要讲一下基于若依二次开发快速上手的方法

2023-09-27 22:45:00 4092 2

原创 Feign实战-Springboot集成OpenFeign Demo以及参数详解

Feign是Netflix开发的声明式、模板化的HTTP客户端，Feign可帮助我们更加便捷、优雅地调用HTTP API。Feign可以做到使用 HTTP 请求远程服务时就像调用本地方法一样的体验。

2023-09-20 22:12:00 1221 1

原创记一次时间序列算法的自回归预测--AR&Autoreg

基于以上我大概先说一下这个预测的方向：由于博主是以做java和spark（scala）为主的人，所以对python用的比较少，过程中有不对的地方请大家批评指正。我们将向刚入行的小白开发者介绍如何使用Python实现AR（自回归）预测模型。AR模型是一种在时间序列预测中常用的模型，它基于过去的观测值来预测未来的值。我们将按照以下步骤进行操作步骤描述1导入所需的库2加载时间序列数据3拆分数据集为训练集和测试集4训练AR模型5使用AR模型预测未来值6评估模型性能7可视化预测结果。

2023-09-07 23:15:00 752

原创【Redis 02】Redis安装与高性能原理剖析

上节说了redis的常用的数据结构和操作，以及每种数据结构适用的场景，本篇文章主要说一下Redis的安装和性能搞的原因。

2023-08-31 19:09:10 247

转载不掌握这些坑，你敢随便用BigDecimal吗？

Java在java.math包中提供的API类BigDecimal，用来对超过16位有效位的数进行精确的运算。双精度浮点型变量double可以处理16位有效数，但在实际应用中，可能需要对更大或者更小的数进行运算和处理。一般情况下，对于不需要准确计算精度的数字，可以直接使用Float和Double处理，但是Double.valueOf(String) 和Float.valueOf(String)会丢失精度。所以如果需要精确计算的结果，则必须使用BigDecimal类来操作。

2023-08-17 22:15:00 173

原创 Idea 离线安装MavenRunHelper插件并排查Hbase中Guava冲突问题解决

通过Maven Helper工具查找依赖冲突项，排除修改冲突依赖，从而解决出现问题的依赖。

2023-08-15 00:30:00 912

原创超详情的开源知识库管理系统- mm-wiki的安装和使用

背景：最近公司需要一款可以记录公司内部文档信息，一些只是累计等，通过之前的经验积累，立马想到了 mm-wiki，然后就给公司搭建了一套，分享一下安装和使用说明：当前市场上众多的优秀的文档系统百家争鸣，但是能够完全开源支持私有化部署的却屈指可数。目前个人了解到的体验较好的有MrDoc和mm-wiki。

2023-08-03 22:49:51 8788 9

原创【分布式】分布式唯一 ID 的几种生成方案以及优缺点&snowflake优化方案

日常开发中，我们需要对系统中的各种数据使用 ID 唯一表示，比如用户 ID 对应且仅对应一个人，商品 ID 对应且仅对应一件商品，订单 ID 对应且仅对应一个订单。拿MySQL数据库举个例子：在我们业务数据量不大的时候，单库单表完全可以支撑现有业务，数据再大一点搞个MySQL主从同步读写分离也能对付。但随着数据日渐增长，主从同步也扛不住了，就需要对数据库进行分库分表，但分库分表后需要有一个唯一ID来标识一条数据，数据库的自增ID显然不能满足需求；

2023-07-28 22:00:00 2409

原创介绍两种常见软件开发模式：“敏捷”和“瀑布”

每一个阶段到下一个阶段，都有明确的输入输出产物，不同的阶段根据自己所需的输入，进行工作活动之后，产生自己阶段的产出，投入到下一个阶段的工作中。所以先根据主路径，完成主要功能后，我们再通过不断地迭代，去完善我们的工作，这样当我们产生变化的时候，我们推翻的工作量也是少量的，可以很快的去完成新的需求变更。敏捷模式，两周一个迭代，每个迭代都能进行一定功能模块的交付，让用户更早的看到交付物，虽然只有部分，也可以让用户来提出自己的看法，产生变更的时候，开发人员也可以在下个迭代中进行修改，让用户进行再次的确认。

2023-07-20 22:15:00 2449 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

openvino 2022.1的安装包

机器学习iris鸢尾花数据集

64位windows jdk1.7

Linux版 tomcat8.0 下载

Netty网络框架学习资源（珍藏版）

springboot+ajax的小例子

MySQL学习笔记

json转换时所需jar

空空如也