自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(102)
  • 收藏
  • 关注

原创 python|字典推导式

假设我们有一个包含学生姓名的列表,我们想要创建一个字典,其中键是学生的姓名,值是该学生在列表中的索引(位置)。通过字典推导式可以快速建立一个字典。

2024-04-09 18:47:36 208

原创 python|sort_values()排序

sort_value()可以用来对值(比如说年龄)进行排序。

2024-04-09 16:12:38 363

原创 python|pandas的loc

159就是一行。ac就是那两行。

2024-04-09 09:58:35 99

原创 python|reset_index

reset_index可以重置索引index,比如说将A、B、C删除一列后,重置成数字。

2024-04-09 09:25:41 802

原创 python|map

可以使用map来将numbers来绑定上一个函数square,从而生成新的列表。

2024-04-09 07:46:14 195

原创 python|drop的应用

drop删除列B删除索引为1的行删除列为‘A’,‘C’的列,axis表示方向删除时保留原始 DataFrame(使用 inplace=False)删除时直接修改原始 DataFrame(使用 inplace=True)

2024-04-09 07:28:41 179

原创 python|isin用法

isin可以用于dataframe的筛选之中,看某个东西是否存在里面。

2024-04-09 07:16:16 94

原创 python|enumerate

enumerate可以用来列举可遍历的对象。

2024-04-09 07:03:54 174

原创 数据处理|dataframe的连接操作merge

在这个例子中,我们使用内连接 (how=‘inner’) 合并了 df1 和 df2,并且使用 on 参数指定了连接的列 key。由于 A 和 C 只在 df1 中存在,而 E 只在 df2 中存在,所以在合并后的 DataFrame 中这些行不会出现。left和right主要还是看重要性,比如说,最终形成的结果必须保证有left,那么会选择left进行拼接。比如说left,代表左连接,比如A和B进行连接,会将B的内容补充到A进来。left_on&&right_on表示左右两个数据集所用的关键字。

2024-04-08 22:31:22 465

原创 计算机网络x面试|HTTP和HTTPS

比如B想发给A信息,B要通过A传出去的公钥对信息进行加密,从而A在收到来自B的信息后再自行用私钥进行解密,同时非对称要保证无法既用公钥加密的同时用公钥解密。就好像小区有一个107号信箱,每个人知道投给107号住户可以通过这个信箱,投进去后相当于用公钥进行了加密,而只有107号住户本人才有能力将信箱📪进行解锁(用私钥解密)。对称加密是指加密和解密双方都知道这套加密的方法,解密一方只需要用加密算法的逆来作为解密算法,即可得到加密前的信息。而需要加密算法的原因是HTTP没有加密处理,容易造成信息的泄漏。

2024-03-12 19:57:42 290

原创 SLAM|初识SLAM

在空间中,人可以通过固定不动的事物来作为参考系中的参照物。而这些固定不动的东西可以称之为特征,空间可以理解成特征存在的空间。而参照物的意义,可以变成是看到某某参照物,就按这个某某参照物进行位置移动。比如说碰到这个蘑菇往左柺。

2024-03-09 17:53:03 303

原创 机器学习|训练集、验证集和测试集

【【深度学习 搞笑教程】05 数据集划分:训练集 验证集 测试集 | 草履虫都能听懂 零基础入门 | 持续更新】https://www.bilibili.com/video/BV1Ma4y1N7Eg?测试集参加了训练,然后再进行测试,相当于提前泄漏考试信息。验证集主要用来尝试不同的超参数,从而对超参数进行调优。训练集用来对模型进行训练/学习,从而得到模型的参数。而测试集用于检验最终模型的结果。

2024-03-06 11:07:34 336

原创 python|self实例对象

比如不能直接用Animal.play(),而应该用Animal.play(某个实例对象)如果拿类来调用方法需要传入实例对象。self代表的是实例对象。

2024-03-04 19:38:01 125

原创 python|继承

如上图,如果没预留好name和sex,jojo和男的信息将会丢失。而如果预留的话,要对信息进行处理,而这些信息是重复的。而对于方法来说,如果对于一个实例调用方法,并不在子类上,也会追溯到父类,当然如果这个子类本身就具有这个方法,则会直接进行调用。如上小猫和人类都有相同的行为/函数,也就是说部分的函数发生了重复。如果子类没有实例化,则这个子类会追溯到父类来进行对属性的实例化。而可以通过继承的方式将重复的内容进行继承,从而减少了代码量。而在深度学习中,常常会将调的包nn.Module来进行继承。

2024-03-03 21:33:33 246

原创 机器学习|KNN和Kmeans

KNN-K个最近的邻居,而K是可人先预设出来的。所谓近朱者赤,近墨者黑。可以选取离当前最近的K个样本来作为辅助判断,因为本样本和最近的K个样本应该是处于一种相似的状态。以下是一个苹果和梨的识别任务。图上会出现一个未知的事物,可以结合和根据以往已经出现在图上的数据来对这个未知事物进行判断。可以选取离这个样本最近的K个样本进行判断,比如上图,让K=3,离样本最近的3个样本有两个梨子,1个苹果。那么当前样本可能会被判断为梨子。而关于最近的近也有不同的衡量来源,比如说曼哈顿距离和欧式距离。

2024-03-03 16:27:49 610

原创 计算机网络|Socket

其中AF_INET代表着socket使用的是IPv4的地址族,而SOCK_STREAM代表着socket使用的传输协议。其中with是python中的一个语法糖,代表当代码块离开with时,自动对s进行销毁。同时c.sendall()可以用来向c发送数据,这里的代码的功能相当于进行了一次回传。如果服务器的套接字s监听并接收到了客服端c传来的消息,就将相关信息传入到线程中去。同时使用s.listen()打开服务器的监听模式,用于监听是否有客户端传来消息。s.bind()用于绑定对应的网卡地址和端口号。

2024-03-02 14:58:34 455

原创 操作系统x面试|进程与线程

进程可以称为是资源分配的最小单元,而线程可以称为是处理器分配的最小单元。资源包括内存空间。同时进程是一段代码的执行过程,这段代码需要多少的内存在代码确定时已经确定下来了。处理器就是执行单元,一个进程可以拆解成多个线程,从而这多个处理器可以并发对进程做出处理。进程间的数据是隔开的。而线程间会有公共的数据段可以让大家共同进行使用。而这也使得进程相对进程更具有安全性。一旦一个进程崩溃,它并不会影响到其他进程的执行。

2024-03-01 16:18:27 431

原创 机器学习|线性回归

线性回归是尝试使用一条直线去拟合出图上的节点。eie_iei​为第i个点构成的误差,使用平方的好处一是可以避免正负抵消,二是平方有利于放大大于1的误差的影响,同时缩小误差小于1的影响。将平方项进行展开,以w作为变元,可以得到上述式子。如何使用代价函数?w是函数斜率,每一个w都会对应损失函数中的一个位置,而合适的w会使得损失函数的损失值趋于最小。代价函数的形式可能多样,可以通过找到一些梯度下降的方法来找到最小的代价函数,从而确认出最优的代价函数。耿直哥

2024-02-29 21:02:11 514

原创 机器学习|决策树

左图的点是一种线性不可分的情况,无法拿一条直线去将进行分开。熵的差值越大,说明这个分法能够导致系统更加稳定,效果更好。每一个节点都代表一个决策,从而导致节点的分流。熵是一种用于反映系统混乱程度的物理量。信息增益用于反映新系统和旧系统的熵差。但取得目标的过程是有所谓的好坏。而这个好坏用熵/信息增益来衡量。最终的目标肯定是要达到分类。

2024-02-29 19:22:30 345

原创 推荐系统|行为序列_用户行为序列建模、Din模型和SIM模型

由于序列过大会造成运算次数的增加,而固执地采用后N个则会无法保持长期兴趣的数据,所以可以在保证序列长度固定的前提下,对N个挑选出来的对象进行操作。物品ID通过Embedding将会得到一个向量,性质差不多的向量在空间中也会处于差不多的位置,可以用取平均方式得到一个综合所有向量的向量。而这个所占的重量/占比,是需要和要查询的候选向量进行比较来得出,也就是所谓的相似度,相似度越大,受其影响也会越大。所谓的LastN是一种普通版本的平均,他考虑到了每一个物品,但并未考虑到每一个物品所占的重量。

2024-02-12 16:29:34 565

原创 推荐系统|召回05_矩阵补充、最近邻查找

如果数据库内存放过多的物品,所对应的内积计算次数将会很多,随之而来还有排序带来的时间消耗。通过用户ID和物品ID分别找到对应的向量,然后去做内积,内积的数值可以去衡量匹配的程度。不共享参数的意思是指用户ID和物品ID使用不同的Embedding Layer。抽出用户和物品,将他们进行计算,作为预测值,并将其与y作差再平方来作为误差。若为灰色,则说明该用户尚未对该作品进行评分,这也是矩阵补充要补充的元素。以上采用的是余弦相似度,即点的角度相似的,类型相似。第i行第j列表示i个用户对第j个作品的评分。

2024-02-11 10:03:20 416

原创 推荐系统|召回04_离散特征处理

从one-hot到Embedding,已经节省了很多的存储空间,但当数据量大的时候,还是占空间,所以工业界仍会对Embedding进行优化。而Embedding并不是完全和One-Hot向量脱离关系,可以通过One-Hot向量进行存取对应的向量。这种位置信息会使得性质类似的物品更加聚合到一块去,而性质差异较大的物品在空间上更加分散。而一个物品所对应的Embedding参数是通过训练来得到的。参数是值得训练的,因为参数实际上代表着向量的位置信息。

2024-02-10 20:49:26 221

原创 推荐系统|物品冷启动01_优化目标&评价(包括基尼系数)

不管是讨论这个作者发了多少,抑或是,这个作者有发过,都表明了这个作者愿意在这个平台进行发布。没有口碑,在店起步的时候,就往往难以凭借名声来吸引客人,更多的是用好奇来招揽客人。大力扶持低曝光新笔记,相当于会使得用户看不到内容相对成熟的笔记,有可能会导致用户侧指标变坏,用户流失。这里的基尼系数是针对新笔记内部来说的,其数值可以用于思考捧起部分新笔记的同时,是否会极力打压其他新笔记,从而抑制到其背后的创作者。

2024-02-10 12:34:34 339

原创 大模型|基础_word2vec

比如通过Never和late去预测出too来,先通过one-hot编码来对Never和late进行编码,并且借编码结果分别找到对应的词向量,然后将never和late的词向量去取平均,在和词库里面的每个词的词向量去做点积(点积能够反映向量的相似性)处理,然后将各个点积的结果,然后用softmax将其转化成概率,概率最大者,即为推理出来的结果。将词转化为向量后,会发现king和queen的差别与man和woman的差别是类似的,而在几何空间上,这样的差别将会以平行的关系进行表达。即w这个词出现的次数。

2024-02-05 20:02:17 781

原创 Transformer|Encoder(未完成)

比如说已经得到腰围和体重的两份数据,此时给出一个查询——腰围为57的人的体重为多少?可以根据以往的腰围数据对体重进行估计,比如说腰围为56的体重为43,腰围为58的人体重为48,那么腰围为57的人体重应该介于43和48之间。而“一半的作用”就是所谓的权重系数(注意力权重,为了得出结果应该放多少注意力到这个级别的体重上来),而这个权重系数需要计算出来。而不妨假设43占一半的作用,48占一半的作用,所以预测的体重为45.5.得到注意力权重系数后,我们就可以对查询对应的结果进行进一步的估计了。

2024-02-02 11:13:18 236

原创 推荐系统|概要03_AB测试

因为推荐链路包括召回、粗排、精排和重排四个阶段,每个阶段都可以尝试新的模型,也可以说每个阶段可以由不同的部门进行负责,而每一个部门都可以提出使用A/B测试的请求(领走一批用户作为测试),所以有可能用户是不够用的。其中小流量是指对部分的用户先尝试改进的算法模型,而非全部。若为全部,如果算法模型存在问题,可能会导致用户体验差,导致用户流失,而小流量的损失代价相对小。互斥,不要同时对同一层的同一批/桶用户施加两种不同的策略,这种实际应该只能算是一种策略——两种策略叠加成一种混合策略。也可以在小流量中先进行确定。

2024-02-02 00:51:23 315

原创 推荐系统|排序03_预估分数融合

方法就是乘上对应的权重。时,再让他去乘上对应曝光次数,即可得到商家获得利润💰。

2024-02-01 11:05:13 199

原创 推荐系统|召回_Swing召回通道

swing模型是ItemCF的一种改造。

2024-02-01 00:39:46 453

原创 推荐系统|排序02_MMOE

MMOE是指Multi-gate Mixture-of-Experts注意看Expert后面加了s,说明了有多个专家。而在MMOE中专家是指用来对输入特征计算的神经网络,每个神经网络根据输入计算出来的向量都会有所不同。

2024-01-31 20:00:18 242

原创 推荐系统|排序01_多目标模型

由于每一个目标对应一个交叉熵,所以多个目标对应多个交叉熵,所以可以考虑将多个交叉熵之和来作为整体的损失函数。统计特征既包括对用户的统计,也包括了对物品的统计(该物品的购买量,转发量等等)。预估是指通过已有数据训练得到的模型,从而能够预测某一用户对某篇文章的行为。负样本减少,总体样本减少,但正样本的个数仍是不变,所以总体的点击率会下滑。而处理成这个校准公式的好处是,无需知道具体的负样本和正样本个数。正负样本是根据是否产生有进一步进行推送的必要而定义的。

2024-01-31 18:03:00 361

原创 推荐系统|概要_推荐系统的链路

推荐系统整体框架由召回、粗排、精排、每次用户刷新页面,都会产生一个重新从数据库拿数据的流程。在这个流程中,包括召回、粗排、精排和重排四个阶段。其中召回会从数据库中使用多个召回通道,从而拿回相当的数据。这些数据先粗排后精排。在粗排过程中,会给每一个物品/评价进行打分,然后再进一步精排,最后插入广告,来进行最后一步的重排。(排序意味有相应的关键字用来比较,这里的排序常常是指,用模型去计算结果,然后按结果进行排序)

2024-01-31 11:28:43 427

原创 推荐系统|概要01_推荐系统的基本概念

以上指标都是短期指标,若盲目提高这些短期指标来进行推送,将在短时期内精确给用户推送感兴趣的内容,但会使得推送陷入同质化的弊病(收敛到相似的节目?),是一种榨干用户兴趣,而非培养用户习惯的短视行为。

2024-01-30 22:51:11 330

原创 transformer | transformer的输入部分input coding

然后统计byte gram,选出出现次数最多的byte gram,将其塞入到词表中,若组成的byte gram使得原本单独的部分无其他非组成该byte gram的情况,则该部分需要从原先的词表进行删除。然后向量是具有空间的,通过和积化差可以得到这个向量是由于某些向量线性组合而成,而线性组合也有对应的空间表示,从而通过线性组合区分位置关系。(位置信息是很重要的,词的意思可通过上下文进一步明确,上文放在下文,可能就有不同的意思存在)pos是指位置,比如说“我爱你”中的“爱”的位置为第二。

2024-01-30 17:32:28 1316 2

原创 机器学习|ROC曲线和AUC值

模型会计算出所判断事物为汉堡🍔的概率,而这个时候还需要再设置一个阈值,使得计算出来的概率如果大于这个阈值,就会被判作是汉堡,而如果小于这个阈值的话,就会被判作不是汉堡。假正例率(False Positive Rate,简称FPR),FPR的话,越小越好,被错判为是的情况越少。也就是说,有存在两种错误情况,一种是判断为🍔,但实际并不是🍔,另外一种是判断为不是🍔,但实际是汉堡。同时不同的阈值会对应不同的图像,而可能对应不同的错误情况的情况个数。也就是说,一条ROC曲线可以对应一个分类器或者分类器的性能。

2024-01-28 01:21:02 455

原创 深度学习|Autoregression自回归

回归是用x去拟合出函数出来,而自回归是用之前的y去拟合出函数。

2024-01-27 00:38:44 125

原创 大模型|基础——长短时记忆网络

这个参数是来自上一层的,也就是对应地,也要给下一层通过计算提供出。如果通过计算,计算出来的结果为0,就选择遗弃。代表激活函数,会将输出归于0到1之间的值。如果遗忘,相当于对过去信息直接进行丢弃。如果信息不重要,可以通过遗忘门进行遗忘。遗忘门,是否进行遗忘。

2024-01-26 12:05:55 1086

原创 深度学习|6.1 小批量梯度下降

把大数据集分成多批数据,每批数据分别计算他们的损失(可以并发处理,从而节省运行时间),最后将其取平均,作为整体的结果,然后参与到梯度下降的环节中去。

2024-01-25 11:34:32 369

原创 图神经网络X项目|基于图神经网络的电商行为的预测(10%)

第二步,刚开始这些点并没有图的编号(有session_id,但并不是一个方便建图的编号),于是可以采取按某一个关键字进行排序的方法,按大小给图上的节点进行重新编号。表示的是某次会话下的某个操作,category代表购买情况,其中0代表未购入,1代表购入。考虑复用性的话,记得将构造出来的数据集进行保存。应用场景:数据集过多,抽取部分数据进行观察。可以选取出列表/集合中的其中一项。表示的是某次会话的编号,而。应用场景:可用于熟悉操作。工具:使用分片进行操作。应用场景:可以可视化进度。后几步,开始制作边集。

2024-01-22 21:44:17 641

原创 推荐系统|2.4 矩阵分解的目的和效果

由于分解完,再复原回去,其实也可以将原本空白的位置填上数据,进而也达到了预测的效果。规模大小的矩阵,经过分解后可得到两个矩阵一个是。注意,分解是以一种近似的情况来进行分解。

2024-01-21 11:01:15 493

原创 推荐系统|1.3 相似度计算与推荐实例

比如sim(i,j)代表第i不电影和第j部电影的相似度,如果越相近,则评分将会越相像,且如果两者不像的话,甚至会起到负作用。二维矩阵中的第i行表示的第i首歌曲在各个用户的评价,而第j列代表的是第j个用户对各个歌曲的评价。可以先行计算电影之间的相似度,并借由电影之间的相似度,预测电影的评分。如上图,整张二维表是有所空缺的,也就是说一些歌曲的评价信息是不全的。

2024-01-21 01:42:09 820

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除