MilkLeong-CSDN博客

原创 MAC安装unar并解压.rar文件

MAC上默认解压.zip文件，对.rar文件进行解压需要安装专门对软件。本文记录如何在命令后安装unar并对.rar文件进行解压。2. 使用brew list unar检查是否安装成功。打印如下log则安装成功。3. 使用unar解压。

2025-04-29 16:50:44 612

原创论文阅读-秦汉时期北方边疆组织的空间互动模式与直道的定位（中国）

发表于：journal of archaeological science，影响因子：3.030论文主要是使用空间互动模型来对秦汉时期的北方边疆直道进行定位和重建。分析发现，建模的结果和文献中的记载存在一定的吻合性。我直接就把论文中一些比较关键的段落贴这里了。

2025-03-09 01:21:58 730 1

原创 Alpha Shapes with GeoPandas报错处理

解决：ccrs.AlbersEqualArea().proj4_init可能没有办法正常获取crs参数，直接调取确定的crs参数即可。中查到可能是alphashape版本本身的问题。再通过下面的命令安装有修复的alphashape。再运行上述命令，能顺利输出转换后的plot。先卸载已安装的alphashape。

2025-03-03 14:16:50 187

原创调用PolygonPatch报错：IndexError: too many indices for array: array is 0-dimensional, but 2 were indexed

打开descartes安装路径中的patch.py文件，将第63行的concatenate([asarray(t.exterior)[:, :2]]修改成concatenate([asarray(t.exterior.coords)[:, :2]]，这样就可以解决报错。，确定报错主要是由于shapely模块修改了它处理Polygon exteriors的方式，但是descartes没有进行对应的更新。这个方法我没有试过，但是有网友将shapely版本降低到1.7，就不再报错了。

2024-12-16 11:20:55 390 2

原创 Linear Regression 线性回归和 Least Squares最小二乘法的关系

Linear Regression 和 Least Squares 方法之间有非常紧密的联系。它们都与统计学和机器学习中建模数据关系的过程相关。最小二乘法 (Least Squares) 是一种优化方法，用于估计线性回归模型中的参数（系数）。它的目标是找到一组参数，使预测值和实际值之间的误差平方和最小化。线性回归 (Linear Regression) 是一种用于建模因变量（目标变量）和自变量（特征）之间关系的统计方法。GPT 4-o生成的，记在这里。，从而实现对数据的最佳拟合。

2024-12-05 15:52:37 638

原创优化理论相关概念

最近在学习优化理论，一些零零碎碎的概念，多是通过GPT获取的，记在这里。

2024-11-22 12:37:07 211

原创 Neo4J的APOC插件安装与配置

我在新的电脑上安装了NeoJ Server却没有安装APOC插件，导致在运行下面的代码时出现了ValueError: Could not use APOC procedures. Please ensure the APOC plugin is installed in Neo4j and that ‘apoc.meta.data()’ is allowed in Neo4j configuration 的报错。是Neo4j的一组插件，提供了许多实用的存储过程和函数，扩展了Neo4j的功能。

2024-10-18 13:16:57 1135

原创 VS Code对齐NoteBook和Terminal的Python环境

新换了MAC，重新安装了VS code，在运行代码时发现NoteBook和Terminal的Python环境不一致，这里讲一下对齐的经过。这个时候在Terminal中安装的Python第三方库就能在Jupyter中使用了。可知两者调用了不同的Python解释器路径。

2024-10-17 23:53:02 258

原创 ChatOpenAI和OpenAI辨析

这篇文章主要讲LangChain中ChatOpenAI和OpenAI的不同，代码完全是在B站。看到的，代码在GitHub上也有。

2024-08-28 00:06:33 575

原创 Langchain_RAG搭建入门

代码是在B站上看到的，先记在这里。后续还会根据自己的实际需求修改。涉及到的task主要包括读取PDF文档、知识切片、对文本进行向量化、利用向量相似度检索出和问题最相关的k个文档，将检索到的文本注入Prompt得到最终的回答。

2024-08-16 17:44:48 457

原创命令行与虚拟环境

在创建一些编程项目时，由于使用不同的工具可能对Python版本及其他软件包有不同的要求，这个时候需要创建不同的虚拟环境以避免将所有的软件包都放在一块而引起冲突。另外，我的系统里有base和llama_factory两个虚拟环境，我发现在这两个虚拟环境中都可以通过neo4j start启动neo4j。要确保不同的虚拟环境彼此隔离，你可以检查每个虚拟环境中的PATH和环境变量配置，以确保它们互相独立。使用的虚拟环境工具不同，激活虚拟环境的方式也会有所不同。这将删除名为myenv的虚拟环境及其所有安装的包。

2024-08-15 15:56:45 682

原创爬取ctext(中国哲学书电子化计划)文本

几年前的代码，记在这里，以免后面找不到。刚刚运行了一下，代码还是能用的。

2024-08-04 11:11:24 523 4

原创在PAI-DSW中连接Neo4J，并批量创建知识图谱

是：在PAI-DSW的命令行使用./cypher-shell语句登录neo4j，然后在PAI-DSW的NoteBook中使用neo4j模块或者py2neo模块连接（在PAI-DSW的命令行中）已启动的neo4j，进行批量的节点和关系创建。这样的做法就类似于在本地的命令行启动neo4j，然后再在本地的NoteBook中使用neo4j模块或py2neo模块连接（本地命令行中启动的）neo4j，在命令行和NoteBook中登录的neo4j都处于同一局域网中。然后使用neo4j.close()关闭与数据库的连接。

2024-08-02 19:34:37 891

原创 PAI-DSW中对齐NoteBook和命令行的Python环境

我认为在最开始NoteBook和命令行的Python环境是一致的，只是我前面在部署LLaMA-Factory时进行了如下操作将命令行的Python环境改成了/root/anaconda3/bin/python。具体详见。

2024-08-02 12:25:21 949

原创 LLaMA-Factory私有化部署 -- PAI-DSW

LLaMA-Factory的私有化部署与部署大模型的过程大体相同，都包括创建Python虚拟环境、下载项目文件及安装所需的依赖包，但在部署LLaMA-Factory时不需要再安装模型权重文件。LLaMA-Factory的requirements.txt文件包含了项目运行所需的所有Python包及其精确版本，可使用pip一次性安装所有依赖。建议在执行项目的依赖安装之前升级pip的版本，如果使用的是旧版本的pip，可能无法安装一些最新的包，或者可能无法正确解析依赖关系。使用下面的代码进行Pytorch的安装。

2024-07-31 11:52:58 899

原创 ChatGPT接入Neo4J，实现精准领域知识问答

我自己构建了一个小型的古籍知识库，想接入ChatGPT，来实现更精准的古籍知识问答。实现的方式应该有很多，但我目前只会最简单的，即：调用chat-gpt的api，通过prompt生成Cypher查询语句进行查询，然后chat-gpt根据查询的结果生成回答。修改的代码，看见CSDN上也有类似代码，但需要付费订阅才能看。下图是最终生成的结果中的描述，结合之前创建的知识图谱，或者《山海经》原文，可知这个答案是很准确的。而下图是GPT-3.5-Turbo的原始回答，可知其对领域知识知之甚少。我主要是根据B站视频。

2024-07-28 18:47:59 1293

原创 Open AI之Chat Completion中的stream流式

最近需要调用Open AI的API，对openai.ChatCompletion.create()函数的输入流stream参数不太了解，网上查看了一些资料，记在这里。由于我购买的API支持的openai的版本较低，代码中涉及的函数可能只对低版本的openai第三方库有效。对stream流式的原理进行了较为详细的介绍。简言之，当设置stream = False 时响应是一个json格式的数据块，以message的形式整体输出；有stream = False 和stream = True 的详细代码示例。

2024-07-28 18:17:55 1524 2

原创阿里云DSW实例中安装并运行Neo4J

想尝试使用大模型对接Neo4J，在阿里云DSW实例中安装了Neo4J，却无法通过本地浏览器访问在DSW实例中运行的Neo4J。尝试了改neo4j.conf文件，以及添加专用网络的公共IP地址等方法，均没有成功。最后决定直接在服务器的命令行进行各种Cypher操作。以下是一些记录。

2024-07-16 18:04:14 933

原创 ChatGLM3-6B微调实战--debug记录

发现前一个requirements.txt文件中要求的transformers的版本为4.40.0，而我系统安装的transformers版本为4.41.2。系统安装的accelerate默认是当前最先的0.32.1 ，在命令行中查看accelerate文件夹中的文件，发现叫得出名字的只有test_utils，看不到hooks.py文件。，pyarrow conda-forge package有三个不同的版本，报错是因为默认安装的pyarrow不包含ListViewType。是有hooks.py文件的。

2024-07-08 23:44:33 1734

原创阿里云人工智能平台PAI部署开源大模型chatglm3之失败记录--update:最后成功了！

想学习怎么部署大模型，跟着部署了一个星期，然而没有成功。失败的经历也是经历，记在这里。我一共创建了3个实例来部署chatglm3，每个实例都是基于V100创建的（当时没有A10可选了），其显存只有16G。每个实例分配的系统存储盘有100G。这三个实例，每个实例都有不一样的失败原因。实例一挂在了下载模型权重文件这一步到这一步的时候系统盘莫名其妙的满了，导致下载模型权重文件报错。由于第一次系统盘早早地满了，第二次部署的时候我就跳过了前期的一些操作，其中包括配置环境变量这一步。

2024-07-06 13:18:22 1120 2

原创 torch.optim 之 Algorithms (Implementation: for-loop, foreach, fused)

一般来说，Adam及其变种由于其高效的自适应学习率调整机制和较好的收敛性能，广泛应用于各种深度学习任务，如分类、回归、自然语言处理和图像生成等。Chat-GPT-4o认为不同的优化算法有不同的适用场景和任务，比如分类、回归、图像处理、自然语言处理等。一些常见的algorithm有：SGD、Adam等，不同的algorithms可能有不同的implementation。自适应学习率算法，对频繁更新的参数进行较小的更新，对不常更新的参数进行较大的更新。适用于稀疏数据和文本数据的任务，比如自然语言处理。

2024-06-20 21:45:14 1436

原创 torch.optim 之 distinct penalization

通过为不同的参数组设置不同的正则化权重，可以对模型中的不同部分应用不同程度的正则化。在深度学习中，"penalization"通常指的是正则化，它是一种用来防止模型过拟合的技术。"Distinct penalization"这个概念指的是对不同的模型参数应用不同程度的正则化。例如，权重参数可能需要较强的正则化以防止过拟合，而偏置参数可能需要较弱的正则化，因为它们通常不会导致过拟合问题。在这个例子中，我们为模型中的权重和偏置创建了不同的参数组，并为它们设置了不同的权重衰减（正则化）值。

2024-06-20 18:06:32 387

原创知识图谱与云计算

所以不但要做符号化的知识图谱的管理，也要做向量化的知识图谱的管理。现在一个重要的趋势就是将知识图谱的符号式的表示转换成分布式的数值表示。大模型通过使用大规模的数据进行训练，学到了很多我们人类还没意识到的隐性的知识。未来应将知识图谱中的显性知识与大模型中的隐性知识结合起来解决问题。知识图谱是符号主义解决问题的一种方式。知识图谱中概念知识的向量化表示跟实体知识的向量表示是不一样的，如何对这些概念知识的向量表示进行学习也是需要考虑的问题。由于图的表示多种多样，对知识图谱进行系统化的管理十分的必要。

2024-01-04 17:31:09 648

原创基于pyltp的依存句法分析

代码是两年多前网上找的，能运行。先记在这里，以防以后用到。

2023-12-01 16:01:39 865

原创集成学习的两种常见策略：bagging VS. boosting

Bagging（自助聚集法）：Bagging是一种并行的集成学习策略，它通过随机有放回地从原始训练集中抽取多个子样本集，并使用这些子样本集来训练多个基学习器。每个基学习器都是独立地训练，并且可以并行地进行。最后，通过对基学习器的预测结果进行投票或平均，来得到集成模型的最终预测结果。Bagging的主要思想是通过减少模型的方差来提高整体模型的稳定性和泛化能力。通过随机抽样和并行训练，Bagging能够减少模型对训练数据的过拟合程度，提高模型的鲁棒性。

2023-11-27 17:44:29 1513

原创机器学习：scale-variant VS. scale invariant, discriminative models VS. generative models

Chat-GPT回答的，记在这里。

2023-11-27 17:38:45 613

原创 NLP中两个词向量间余弦相似度的求解方式

根据ChatGPT生成的答案改的。

2023-11-20 17:59:15 206

原创 Kneser-Ney平滑（Kneser-Ney smoothing）简介

它的基本思想是利用n-gram的上下文信息来估计未见n-gram的概率。在语言模型中，n-gram是指由n个连续的词组成的序列。n-gram语言模型的目标是计算给定一个上下文的情况下，下一个词的概率。然而，当模型遇到未在训练数据中出现的n-gram时，概率会变为零，这会导致模型在生成或评估文本时出现问题。（3）Kneser-Ney平滑通过利用上下文信息来提高语言模型的性能，尤其是在处理未见n-gram时。（2）在计算概率时，使用补充概率和回退概率来调整未见和已见n-gram的概率。计算补充概率和回退概率。

2023-11-06 15:10:44 1036

李宏毅机器学习学习笔记

Python安装第三方库笔记

空空如也