火车切片-CSDN博客

原创 AI大模型的未来战场：通用与垂直的较量

在人工智能的快速发展浪潮中，大模型技术已经成为推动行业进步的重要力量。当前，AI大模型的战场正逐渐分化为两大阵营：通用大模型和垂直大模型。本文将探讨这两种模型的特点、优势以及未来可能的发展趋势。

2024-06-20 10:16:17 216 1

linux中压缩文件的解压：linux下载命令linux中压缩文件的格式linux压缩文件格式表格压缩命令： tar –cvf jpg.tar *.jpg 将目录里所有jpg文件打包成tar.jpg tar –czf jpg.tar.gz *.jpg 将目录里所有jpg文件打包成jpg.tar后，并且将其用gzip压缩，生成一个gzip压缩过的包，命名为jpg.tar.gz tar –cjf jpg.tar.bz2 *.jpg 将目录里所有jpg文件打包成jpg.tar后，并且将其用.

2021-12-27 22:54:39 192 1

原创 Linux入门学习Task2

task2的前两个任务较为简单，第三个任务花的时间较长，主要学习了linux中的程序后台运行和进程管理。我们写一个py文件，sleep.py它的功能是每隔10秒输出一下当前时间我们可以利用：python3 sleep.py这个命令让这个程序运行起来，实现输出时间的功能。此时我们引入一个概念，就是我们打开terminal的时候，其实是开启了一个会话（Session），通过这个会话，我们可以使用vim编写文件，使用python3运行程序。在这个会话中，我们也可以使用（ctrl+c)这样的命令来终止一

2021-12-22 22:45:16 189

转载 Linux入门学习（一）

ssh的介绍：SSH是一种网络协议，用于计算机之间的加密登录。如果一个用户从本地计算机，使用SSH协议登录另一台远程计算机，我们就可以认为，这种登录是安全的，即使被中途截获，密码也不会泄露。最早的时候，互联网通信都是明文通信，一旦被截获，内容就暴露无疑。1995年，芬兰学者Tatu Ylonen设计了SSH协议，将登录信息全部加密，成为互联网安全的一个基本解决方案，迅速在全世界获得推广，目前已经成为Linux系统的标准配置。SSH只是一种协议，存在多种实现，既有商业实现，也有开源实现。在Linux中..

2021-12-13 21:01:02 171

原创 python爬虫案例——爬取豆瓣图书信息并保存

python爬虫案例——爬取豆瓣图书信息并保存所需基础requests库的使用BeautifulSoup库的使用re库的使用和简单的正则表达式tqdm（进度条）库的使用pandas库创建DataFrame和保存Csv操作直接上代码，注释写的比较详细from bs4 import BeautifulSoupimport requestsimport re#import threading#import want2urlimport pandas as pdfrom tqd

2021-08-01 16:05:26 6138 7

原创 Java中的成员变量、属性、局部变量和构造器之我见

相信初学Java面向对象的人一定会对成员变量、属性、局部变量和构造器之间的关系和使用搞得有些不知所措，因此此篇文章是总结了作者对此部分知识粗浅的理解。要思考明白他们之间的关系，首先要理解局部变量这个概念，局部变量就是在方法定义中的变量，称之为局部变量.局部变量在方法创建的时候被创建。在方法调用结束后结束。我们从一个例子来看这部分的知识：假设我们在为一个漫画创造一个超级英雄角色，首先定义一个SuperHero类。一个超级英雄应该具备什么东西？一个名字，便于识别的外形特点，最重要的就是她的超能力。因此我

2021-06-15 11:27:07 1564 3

原创 Django项目创建和runserver无反应的解决方法

最近刚刚开始学习Django开发，记录一下在创建项目时，遇到的问题和解决方法，方便像我一样的小白查看。首先一个Django项目在cmd中建立时，需要输入django-admin startproject 这里写你想要建立的项目的名称此时可能会遇到输入之后无响应的问题，这是的解决方法是，将Django加入环境变量，具体方法可以搜索下，很简单。我遇到的第二个问题是，在runserver的时候，输入了python manage.py runserver 0.0.0.0:80之后仍然是没有反应，如图

2021-04-29 16:13:43 7907 3

原创 ArcFace的原理以及代码的理解

最近因需要粗浅的学习了一下ArcFace损失函数，由于在学习中遇到了很多问题，特将问题的思考分享出来，权当分享个人愚见，希望可以有人看到后进行讨论进步。ArcFace的引入人脸识别分为四个过程：人脸检测、人脸对齐、特征提取、特征匹配。其中，特征提取作为人脸识别最关键的步骤，提取到的特征更偏向于该人脸“独有”的特征，对于特征匹配起到举足轻重的作用，而我们的网络和模型承担着提取特征的重任，优秀的网络和训练策略使得模型更加健壮。但在Resnet网络表现力十分优秀的情况下，要提高人脸识别模型的性能，除了优

2021-04-10 12:58:20 7455 5

原创（天池）零基础入门数据挖掘-心跳信号分类预测总结笔记（五）

1.简单的线性加权融合import numpy as npimport pandas as pdfrom sklearn import metrics## 生成一些简单的样本数据，test_prei 代表第i个模型的预测值test_pre1 = [1.2, 3.2, 2.1, 6.2]test_pre2 = [0.9, 3.1, 2.0, 5.9]test_pre3 = [1.1, 2.9, 2.2, 6.0]# y_test_true 代表第模型的真实值y_test_true = [

2021-03-28 20:35:45 258

原创（天池）零基础入门数据挖掘-心跳信号分类预测总结笔记（四）

主要研究了baseline所用的lightgbm算法，其实lightgbm就是在xgboost之上的改进。对于xgboost部分可以参考我的xgboost手推篇对于两种算法的对比（1）XGBoost的缺点在LightGBM提出之前，最有名的GBDT工具就是XGBoost了，它是基于预排序方法的决策树算法。这种构建决策树的算法基本思想是：首先，对所有特征都按照特征的数值进行预排序。其次，在遍历分割点的时候用的代价找到一个特征上的最好分割点。最后，在找到一个特征的最好分割点后，将数据分裂成左右子节点

2021-03-25 20:24:45 328

原创 XGBoost原理手推

2021-03-25 20:18:34 103

原创（天池）零基础入门数据挖掘-心跳信号分类预测总结笔记（三）

打卡用，先空着，明天补上

2021-03-22 23:01:39 218

原创（天池）零基础入门数据挖掘-心跳信号分类预测总结笔记（EDA）

数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据，具体的文件中的每个字段表示什么实际含义，以及数据集中特征之间的相关性，在推荐场景下主要就是分析用户本身的基本属性，文章基本属性，以及用户和文章交互的一些分布，这些都有利于后面的召回策略的选择，以及特征工程。当特征工程和模型调参已经很难继续上分了，可以回来在重新从新的角度去分析这些数据，或许可以找到上分的灵感首先导入EDA需要的python库#coding:utf-8#导入warnings包，利用过滤器来实现忽略警告语句。i

2021-03-18 20:50:36 383

原创（天池）零基础入门数据挖掘-心跳信号分类预测总结笔记（一）

在做比赛之前学的知识比较散乱，不成体系，参加比赛后从头开始捋顺了知识的结构，还是很有帮助的。通过参加这次入门赛，打算记录一些之前忽略的知识。从第一天的baseline学习中，主要学习到了未学过的pandas处理大数据集，内存优化的方式。代码部分如下：def reduce_mem_usage(df): #df.memory_usage() 为一个api可以查看dataframe中每一列的内存占用情况 #sum（）之后即为整个dataframe所占用的内存，除以1024**2即为用mb为单位表示内存值

2021-03-15 21:02:48 617 2

原创机器学习算法.逻辑回归.推导（一）逻辑回归的形式是怎么来的？

对于逻辑回归，大部分资料都是直接给出了此类形式，但无论是不解释，或者直接进入了Sigmoid函数带入线性回归模型的方式，都很难让我理解为啥采用如此形式，于是学习之后写下了此文的推导。本文的先导知识基本线性代数知识正态分布和正态分布的标准化机器学习的线性回归模型为了方便，此后推导的线性回归模型的格式写为如此格式（权重和偏置项同处一个矩阵中）此步推导也写在下方：下面正式进入推导：因为标准正态分布的累积分布函数无法用积分求出，所以我们引入一个近似的累积分布函数：到此可得逻辑回归的一般

2020-09-17 18:57:53 189

原创 python实现的快速排序

什么是快速排序：快速排序（英语：Quicksort），又称划分交换排序（partition-exchange sort），通过一趟排序将要排序的数据分割成独立的两部分，其中一部分的所有数据都比另外一部分的所有数据都要小，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。排序方法快速排序的思路是依据一个中值数据项来把数据表分为两半：小于中值的一半和大于中值的一半，然后每部分分别进行快速排序。快速排序的程序设计常用递归的方法：基本结束条..

2020-09-01 21:47:05 165

原创基于python的数据结构和算法（北京大学）散列表

散列表的引入通过构造一个新的数据结构，能使得查找算法的复杂度降到O(1)，这种概念称为“散列Hashing”。能够使得查找的次数降低到常数级别，我们对数据项所处的位置就必须有更多的先验知识。如果我们事先能知道要找的数据项应该出现在数据集中的什么位置，就可以直接到那个位置看看数据项是否存在即可。什么是散列表？散列表（Hash table）又称哈希表，是一种种数据集，其中数据项的存储方式尤其有利于将来快速的查找定位。散列表中有多个“槽”(slot)，用来保存数据项，每个槽都有唯一的名称，通过..

2020-08-25 17:12:34 330

原创基于python的数据结构和算法（北京大学）第七章（排序和查找）

顺序查找Sequential Search：无序表顺序查找:def sequentialSearch(alist,item): pos = 0 found = False while pos<len(alist) and not found: if alist[pos] == item: found =True else: pos += 1 return found有.

2020-07-31 16:56:26 264

原创基于python的数据结构和算法（北京大学）第六章（贪心策略和动态规划）

分治策略：解决问题的典型策略：分而治之将问题分为若干更小规模的部分通过解决每一个小规模部分问题，并将结果汇总得到原问题的解分治策略和递归算法的联系：从找零问题中看贪心策略：贪心策略（Greedy Method）：每次都试图解决问题尽量大的一部分。贪心策略解法：从最大面值的硬币开始，用尽量多的数量，有余额的，再到下一最大面值的硬币，还用尽量多的数量，一直到最小面值硬币为止。递归解法：兑换硬币最简单直接的情况就是需要兑换的面值正好等于某种硬币，就只用找零1枚硬币，也就是递归的基..

2020-07-24 17:24:34 220 2

原创遗传算法的python实现

import numpy as npimport matplotlib.pyplot as pltDNA_SIZE = 10 # DNA lengthPOP_SIZE = 100 # population sizeCROSS_RATE = 0.8 # mating probability (DNA crossover)MUTATION_RATE = 0.003 # mutation probabilityN_GENERATIONS

2020-07-22 10:52:27 223

原创深度学习入门基于python的的理论与实现（学习笔记）.第七章卷积神经网络（第二部分）

池化层：池化是缩小高、长方向上的空间的运算。一般来说，池化的窗口大小会和步幅设定成相同的值。池化层的特征1. 没有要学习的参数2.通道数不发生变化对微小的位置变化具有鲁棒性（健壮）。输入数据发生微小偏差时，池化仍会返回相同的结果。因此，池化对输入数据的微小偏差具有鲁棒性。因此，池化层可以降低特征图的参数量，提升计算速度，增加感受野，是一种降采样的操作。可是模型更关注全局特征而非局部出现的位置，可提升容错能力，一定程度上防止过拟合。卷积层和池化层的实现：为了实现卷积层和池化层..

2020-07-21 19:40:06 296

原创深度学习入门基于python的的理论与实现（学习笔记）.第七章卷积神经网络（第一部分）

卷积神经网络(CNN: Convolutional Neural Network)整体结构：CNN 的层的连接顺序是“Convolution - ReLU - (Pooling)”（Pooling 层有时会被省略）。还需要注意的是，在上的CNN中，靠近输出的层中使用了之前的“Affine - ReLU”组合。此外，最后的输出层中使用了之前的“Affine - Softmax”组合。这些都是一般的CNN中比较常见的结构。卷积层负责对图像进行特征提取，池化层负责降采样：保留显著特征、降低特征维度的同时增大

2020-07-21 19:25:42 344

原创深度学习入门基于python的的理论与实现（学习笔记）.第六章与学习相关的技巧（第四部分）

6.4正则化：机器学习问题中，过拟合（overfit）是一个很常见的问题。过拟合指的是只能拟合训练数据，但不能很好地拟合不包含在训练数据中的其他数据的状态。机器学习的目标是提高泛化能力，即便是没有包含在训练数据里的未观测数据，也希望模型可以进行正确的识别。我们可以制作复杂的，表现力强的模型，但是相应地，抑制过拟合的技巧也很重要。发生过拟合(high variance)的原因，主要有以下两个：模型拥有大量参数、表现力强训练数据少解决过拟合问题的方法：Get more dataRegular

2020-07-16 11:26:34 266

原创深度学习入门基于python的的理论与实现（学习笔记）.第六章与学习相关的技巧（第三部分）

6.3 Batch Normalization在权重的初始化中，我们观察了各层的激活值分布，并从中了解到如果设定了合适的权重初始值，则各层的激活值分布会有合适的广度，从而可以顺利地进行学习。那么为了使各层拥有适当的广度，“强制性”地调整激活值的分布会怎样呢？Batch Normalization就是基于这个方法而产生的。Batch Normalization（简称Batch Norm）是2015年提出的方法，他可以可以使学习快速进行（可以增大学习率）不那么依赖初始值（对于初始值不用那么神经质）抑

2020-07-15 20:25:23 205

原创深度学习入门基于python的的理论与实现（学习笔记）.第六章与学习相关的技巧（第二部分）

6.2权重初始值：在神经网络的学习中，权重的初始值特别重要。实际上，设定什么样的权重初始值，经常关系到神经网络的学习能否成功权值衰减（weight decay）可以抑制过拟合。如果想减小权重的值，一开始就将初始值设为较小的值才是正途。实际上，在这之前的权重初始值都是像0.01 * np.random.randn(10, 100)这样，使用标准差为0.01 的高斯分布。然而，如果将权重初始值设为0的话，将无法正确进行学习，或者说，将权重初始值设成一样的值，也无法正确进行学习。这是因为在误差反向传播法中

2020-07-15 20:04:56 238 1

原创基于python的数据结构和算法（北京大学）第五章（递归）

此章理解较为困难，未写自写代码，仅仅记录标准代码并复现。什么是递归（Recursion）递归是一种解决问题的方法，其精髓在于将问题分解为规模更小的相同问题。持续分解，直到问题规模小到可以用非常简单直接的方式来解决。递归的问题分解方法非常独特，其算法方面的明显特征就是：在算法流程中调用自身。递归的三定律：1.递归算法必须有一个基本结束条件（最小规模问题的直接解决）2.递归算法必须能改变状态向基本结束条件演进（减小问题规模）3.递归算法必须调用自身（解决减小了规模的相同问题）初识递归：

2020-07-14 17:33:56 261

原创深度学习入门基于python的的理论与实现（学习笔记）.第六章与学习相关的技巧（第一部分）

6.1 参数的更新：神经网络的学习的目的是找到使损失函数的值尽可能小的参数。这是寻找最优参数的问题，解决这个问题的过程称为最优化（optimization）。在之前的学习中，我们为了找到最优参数，将参数的梯度（导数）作为了线索。使用参数的梯度，沿梯度方向更新参数，并重复这个步骤多次，从而逐渐靠近最优参数，这个过程称为随机梯度下降法（stochastic gradient descent），简称SGD。SGD：表达式为：python的实现代码为：class SGD(): def __ini

2020-07-13 21:16:04 304

原创基于python的数据结构和算法（双向队列和线性结构的总结）

双向队列:双端队列是一种有次序的数据集，数据项既可以从队首加入，也可以从队尾加入，数据项也可以从两端删除；某种意义上说，双端队列集成了栈和队列的能力。但双端队列并不具有内在的LIFO和FIFO特性，如果用双端队列来模拟栈和队列，需要由使用者自行维护操作的一致性。双向队列的操作：deque() 创建空双端队列addfront(item) 将item加入队首addrear(item) 将item加入队尾removefront() 从队首移除数据项，返回值为移除的数据项removerear().

2020-07-11 20:39:54 251

原创基于python的数据结构与算法（北京大学）课程中的代码实现（队列部分）

什么是队列（Queue）？队列是一种有次序的数据集合，其特征是，新数据项的添加总发生在一端(通常称为"尾(rear)"端)；而现存数据项的移除总发生在另一端（通常称为”首(front)“端）当数据项加入队列，首先出现在队尾，随着首数据项的移除，它逐渐接近队首。新加入的数据项必须在数据集末尾等待。这种次序安排的原则称为先进先出(FIFO:first in first out)或先到先服务(first-come first-served)队列的应用：队列的基本操作：queue(..

2020-07-07 21:47:36 387

原创基于python的数据结构与算法（北京大学）课程中的代码实现（栈部分）

本文主要是对于北京大学的基于python的数据结构和算法课程中代码的实现。结构为首先自写代码，然后进行debug并和标准代码对比，分析所写不足。以加深对python特有数据结构的理解。python中的栈的实现如下。class Stack(): def __init__(self): self.items = [] def push(self,x): self.items.append(x) def pop(self): popthi

2020-07-06 20:32:03 472 1

原创深度学习入门基于python的理论和实现第四章（学习算法的实现）学习笔记

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2020-06-30 14:34:24 889

qq_45434461的博客