- 博客(426)
- 资源 (1)
- 收藏
- 关注
原创 使用 Apache Spark 进行大数据分析
对于DataFrame API来说,转换(transformations)定义了一个新的RDD/Dataset但是不会立即计算它;只有当遇到行动(actions)的时候才会触发真正的计算过程。常见的转换包括但不限于select(), filter(), groupBy()等方法;而collect(), count()则是典型的动作操作例子。根据具体的场景需求编写相应的ETL流程或者构建机器学习模型。以上就是关于怎样借助于Spark来进行高效便捷的大规模数据分析的一个简单介绍。
2025-02-08 15:44:59
411
原创 【人工智能专栏】Stochastic Gradient Descent (SGD) 随机梯度下降
SGD 实际上就是在一个 epoch 中每个 batch 做一次梯度更新,因为数据集每个 epoch 会被打乱,于是就相当于是随机样本子集对模型进行权值更新。
2024-08-06 10:30:00
154
1
原创 【人工智能专栏】Xavier initialization合理的初始化权值
我们希望网络在训练时有“合理的初始化权值”,即通过适合的参数初始化方法,让张量在网络中可以达到最佳的非线性映射效果。但是在居多网络的层中,例如sigmoidrelubatchnorm等层都对输入数据的值比较敏感,过大 / 过小的值都可能让输出落入饱和区间,进而失去梯度,如sigmoid图像:yxw1x1w2x2...wnxnb使用标准正态分布初始化分布w∼N01,那么所有标准正态分布的和分布会变成∑w∼N0n。
2024-08-06 10:15:00
167
原创 【人工智能专栏】基于人类反馈对语言模型进行强化学习 (RLHF)
字面上说,RLHF就是基于人类反馈(Human Feedback)对语言模型进行强化学习(Reinforcement Learning),和一般的fine-tune过程乃至prompt tuning自然也不同。
2024-08-05 13:15:00
179
原创 【人工智能专栏】 PCA Decomposition
最大方差理论:方差越大,信息量就越大。协方差矩阵的每一个特征向量就是一个投影面,每一个特征向量所对应的特征值就是原始特征投影到这个投影面之后的方差。由于投影过去之后,我们要尽可能保证信息不丢失,所以要选择具有较大方差的投影面对原始特征进行投影,也就是选择具有较大特征值的特征向量。然后将原始特征投影在这些特征向量上,投影后的值就是新的特征值。每一个投影面生成一个新的特征,k个投影面就生成k个新特征。
2024-08-05 12:00:00
70
原创 【人工智能专栏】 Low-rank Adaptation (LoRA)大语言模型的低阶适应
LoRA,英文全称Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应,这是微软的研究人员为了解决大语言模型微调而开发的一项技术。目前大语言模型在针对特定任务时一般采用预训练-微调方式,但对多数 LLM 来说,如 GPT-3 有数十亿参数,它能微调,但成本太高太麻烦了。LoRA的做法是,冻结预训练好的模型权重参数,然后在每个Transformer 块里注入可训练的层,就好比是大模型的一个小模型或者说是一个插件。
2024-08-05 10:15:00
153
原创 【人工智能专栏】L1 Regularization理解
假设我们的模型有一堆参数x0x1x2...xn和对应的损失函数lossfx0...xn,我们可以通过∇f0⎩⎨⎧g1x0...xn0g2x0...xn0g3x0...xn0这时直接计算∇f0就不可行了,根据高数的内容应该使用拉格朗日乘数法,令hx0...xnf∑∀mλmgm⎩⎨⎧∂。
2024-08-04 09:30:00
64
原创 【人工智能专栏】Gradient Clip 梯度裁剪(防止梯度爆炸或消失的技术)
深度学习里面的梯度裁剪(Gradient Clipping)是一种防止梯度爆炸或消失的技术,它可以限制梯度的范数或值在一个合理的范围内,从而保证模型的稳定训练。
2024-08-03 16:00:00
315
原创 【人工智能专栏】Focal Loss 可以平衡简单样本和困难样本(或大量样本和少量样本)的学习
Focal loss 可以。这就是 Focal Loss 的基本思路,让模型更加注重困难样本所贡献的 loss ,另外 Focal loss 用于分类任务,实际上也是一种扩展的 cross entropy loss (γ0时两者一致)。
2024-08-03 11:00:00
68
原创 【人工智能专栏】弹性变形 Elastic Deformation
在生物医学图像上做数据增强有显著作用,例如 UNet 使用了这种方法来提高实例分割性能。
2024-08-02 14:45:00
104
原创 【人工智能专栏】对Dropout的认知(防止过拟合)
训练神经网络时有一种直观的理念:使用不同的神经网络来训练,最后通过投票得出结果,这样可以防止某一个模型出现过拟合的影响,这种方法叫。但是训练多个网络花费的时间代价和空间代价是很高的,因此另一种解决的思路是在一个完整的神经网络里面通过某种方法划分出各种子网,对子网进行训练,完成后再使用子网投票得到最终输出。完全划分为互补相关的子网显然与第一种方法没什么不同,因此采用随机划分的方式更加高效、且能够在最终训练完成的统一模型上存在各个子网的交流,这就是 Dropout 的基本理念,使用一个参数p让神经元以概率。
2024-08-02 10:45:00
73
原创 【收集表单数据】
在 React 里,HTML 表单元素的工作方式和其他的 DOM 元素有些不同,这是因为表单元素通常会保持一些内部的 state。例如这个纯 HTML 表单只接受一个名称:
2024-08-01 15:15:00
464
原创 【列表 & Key】
在谈 diff 算法之前,我们需要先了解虚拟 DOM。它是一种编程概念,在这个概念里,以一种虚拟的表现形式被保存在内存中。在 React 中,render 执行的结果得到的并不是真正的 DOM 节点,而是 JavaScript 对象虚拟 DOM 只保留了真实 DOM 节点的一些基本属性,和节点之间的层次关系,它相当于建立在 JavaScript 和 DOM 之间的一层“缓存”上面的这段代码会转化可以转化为虚拟 DOM 结构props: {},props: {},"]
2024-08-01 11:30:00
261
原创 【人工智能专栏】Constructive损失解析
即相似样本的损失值等于两个特征值在欧氏空间的距离值。可以更加关注相对距离的学习,常用于对比学习。定下上界,同时也是为了防止训练时走捷径导致。直接将结果与目标数值比较的做法,使用。(不然这种情况下无论样本如何都必然让。此时欧氏距离越小反而损失值越大,
2024-07-31 11:06:20
83
原创 【人工智能专栏】Cross Entropy 交叉熵损失解析
在信息世界中我们所有的信息都可以抽象为“情况”,用二进制bit来表达,正因为每个bit都有01两种“情况”,所以n个bit可以编码2n种“情况”。但是现实中,假如我们要从英语单词中随机中取出一个字符,x262nlog2x这样我们对任何多种“情况”都可以用比特量来表示它了。如今我们还面临一个问题,就是多数情况下各种“情况”并不是均匀分布的,这会造成信息熵差异,例如英语单词虽然都是由26个字母组成,但是每种字母出现的频率也有很大区别,像aet这样的字母非常常见,而zvi∑n。
2024-07-31 11:05:36
87
原创 【人工智能专栏】二分图匹配与匈牙利算法,出现在 **DETR** 的目标检测匹配上
二分图匹配与匈牙利算法,出现在的目标检测匹配上。二分图又称作二部图,是图论中的一种特殊模型。设GVE是一个无向图。如顶点集V可分割为两个互不相交的子集,并且图中每条边依附的两个顶点都分属两个不同的子集。则称图G为二分图。我们将上边顶点集合称为VX集合,下边顶点结合称为VY给定一个二分图G,在G的一个子图M中,M的边集E中的任意两条边都不依附于同一个顶点,则称M是一个匹配。如下,在子图中两条边都不依附同一个顶点,因此它是G。
2024-07-31 11:02:09
132
原创 【人工智能专栏】Beam Search 束搜索
这里是一个的Beam Search示意图,每个节点都会扩展5个下级节点,在 Beam Search 每次都会从所有扩展节点里面挑选出2个累计启发值最大的节点,直到达到结束标准。
2024-07-31 11:00:09
143
原创 【事件处理】
React的事件是通过onXxx属性指定事件处理函数React 使用的是自定义事件,而不是原生的 DOM 事件React 的事件是通过事件委托方式处理的(为了更加的高效)可以通过事件的获取发生的 DOM 元素对象,可以尽量减少refs的使用事件中必须返回的是函数。
2024-07-30 10:30:00
358
原创 【react入门】
是一个用于构建用户界面的 JavaScript 库。React 有什么特点?React 的一些主要优点?1.原生JS操作DOM繁琐,效率低2.使用JS直接操作DOM,浏览器会进行大量的重绘重排3.原生JS没有组件化编码方案,代码复用低在学习之前最好看一下关于npm的知识:下面是我在网上看见的一个写的还不错的npm的文章。
2024-07-29 14:00:00
397
原创 【Koa基本使用】
koa 是由 Express 原班人马打造的,致力于成为一个更小、更富有表现力、更健壮的 Web 框架。使用 koa 编写 web 应用,通过组合不同的 generator,可以免除重复繁琐的回调函数嵌套,并极大地提升错误处理的效率。koa 不在内核方法中绑定任何中间件,它仅仅提供了一个轻量优雅的函数库,使得编写 Web 应用变得得心应手。
2024-07-29 11:00:00
408
原创 【文件上传】
在 controllers 目录下创建// 用户的逻辑控制器// 头像图片上传try {res.send({meta: { code: 200, msg: '上传成功!' },})上述代码主要是编写了一个用户控制器类,以及一个图片上传的方法upload。在upload中调用了上传图片的接口,得到成功或失败的结果,在响应给客户端。在 routers 目录下创建index.js,编写如下代码:// 导入用户逻辑// 创建路由对象// 设置路由// 导入路由对象定义了路由之后还需要在。
2024-07-28 14:00:00
311
原创 什么是跨域
跨域,是指浏览器不能执行其他网站的脚本。它是由浏览器的同源策略造成的,是浏览器对JavaScript实施的安全限制。浏览器从一个域名的网页去请求另一个域名的资源时,出现域名、端口、协议任一不同,都属于跨域。同源策略限制了一下行为:Cookie、LocalStorage 和 IndexDB 无法读取DOM 和 JS 对象无法获取Ajax请求发送不出去。
2024-07-28 10:00:00
336
原创 【登录鉴权】
用户授予第三方应用访问该用户某些资源的权限你在安装手机应用的时候,APP 会询问是否允许授予权限(访问相册、地理位置等权限)你在访问微信小程序时,当登录时,小程序会询问是否允许授予权限(获取昵称、头像、地区、性别等个人信息)cookiesessiontokenOAuth实现认证和授权的前提是需要一种媒介(证书) 来标记访问者的身份在互联网应用中,一般网站(如掘金)会有两种模式,游客模式和登录模式。当用户登录成功后,服务器会给该用户使用的浏览器颁发一个令牌(token。
2024-07-27 14:30:00
363
原创 接口规范和业务分层
REST全称是Representational State Transfer,中文意思是表述(编者注:通常译为表征)性状态转移。它首次出现在2000年Roy Fielding的博士论文中,Roy Fielding是HTTP规范的主要编写者之一。他在论文中提到:“我这篇文章的写作目的,就是想在符合架构原理的前提下,理解和评估以网络为基础的应用软件的架构设计,得到一个功能强、性能好、适宜通信的架构。REST指的是一组架构约束条件和原则。
2024-07-27 11:30:00
369
原创 【操作mysql数据库】
作为一个JavaScript全栈工程师,选择哪个免费数据库呢?当然是MySQL。因为MySQL普及率最高,出了错,可以很容易找到解决方法。而且,围绕MySQL有一大堆监控和运维的工具,安装和使用很方便。
2024-07-26 17:13:47
296
原创 【操作mongodb数据库】
validate实际上是一个函数,函数的参数代表当前字段,返回true表示通过验证,返回false表示未通过验证//定义名字name的长度必须在4个字符以上})if(err){})
2024-07-26 17:13:07
479
原创 nodejs--【Express服务端渲染】
相比于jade模板引擎,ejs对原HTML语言就未作出结构上的改变,只不过在其交互数据方面做出了些许修改,相比于jade更加简单易用。因此其学习成本是很低的。您也可参考ejs官网:https://ejs.bootcss.com/服务端渲染可以在源码中看到,客户端渲染不能再源码中看到。
2024-07-02 11:45:00
478
原创 nodejs--【操作mongodb数据库】
validate实际上是一个函数,函数的参数代表当前字段,返回true表示通过验证,返回false表示未通过验证//定义名字name的长度必须在4个字符以上})if(err){})
2024-07-02 11:15:00
1261
原创 nodejs--【Express基本使用】
路由表示应用程序端点 (URI) 的定义以及响应客户端请求的方式。它包含一个请求方时(methods)、路径(path)和路由匹配时的函数(callback);
2024-07-01 17:00:00
1861
原创 nodejs--【爬虫】
Puppeteer本身依赖6.4以上的Node,但是为了异步超级好用的,推荐使用7.6版本以上的Node。另外headless Chrome本身对服务器依赖的库的版本要求比较高,centos服务器依赖偏稳定,v6很难使用headless Chrome,提升依赖版本可能出现各种服务器问题(包括且不限于无法使用ssh),最好使用高版本服务器。Puppeteer因为是一个npm的包,所以安装很简单:puppeteer会自动安装一个谷歌浏览器的安装包,所以选择core版,但是得指定启动路径。
2024-07-01 10:45:00
2368
原创 nodejs--【nodejs内置模块(下)】
stream是Node.js提供的又一个仅在服务区端可用的模块,目的是支持“流”这种数据结构。什么是流?流是一种抽象的数据结构。想象水流,当在水管中流动时,就可以从某个地方(例如自来水厂)源源不断地到达另一个地方(比如你家的洗手池)。我们也可以把数据看成是数据流,比如你敲键盘的时候,就可以把每个字符依次连起来,看成字符流。这个流是从键盘输入到应用程序,实际上它还对应着一个名字:标准输入流(stdin)。
2024-06-30 09:00:00
557
原创 nodejs--nodejs内置模块(中)
在nodejs中,path是个使用频率很高,但却让人又爱又恨的模块。部分因为文档说的不够清晰,部分因为接口的平台差异性。将path的接口按照用途归类,仔细琢磨琢磨,也就没那么费解了。
2024-06-29 13:45:00
613
原创 nodejs--nodejs内置模块(上)
每个文件就是一个模块,有自己的作用域。在一个文件里面定义的变量、函数、类,都是私有的,对其他文件不可见。// 5// 6对象是浏览器的原生对象,用来构造、解析和处理 URL 的查询字符串(即 URL 问号后面的部分)。它本身也是一个构造函数,可以生成实例。参数可以为查询字符串,起首的问号?有没有都行,也可以是对应查询字符串的数组或对象。// 方法一:传入字符串// 等同于// 方法二:传入数组// 方法三:传入对象会对查询字符串自动编码。
2024-06-29 11:00:00
825
原创 nodejs--nodejs模块化规范:CommonJS
概念:将一个复杂的程序依据一定的规则(规范)封装成几个块(文件),并组合在一起。模块的内部数据、实现是私有的, 只是向外部暴露一些接口(方法)与外部其它模块通信。最早的时候,我们会把所有的代码都写在一个js文件里,那么,耦合性会很高(关联性强),不利于维护;而且会造成全局污染,很容易命名冲突。CommonJS:是 Node.js 使用的模块化规范。也就是说,Node.js 就是基于 CommonJS 这种模块化规范来编写的。CommonJS 规范规定:每个模块内部,module 变量代表当前模块。
2024-06-28 15:15:00
936
原创 nodejs--npm的使用
npm 允许在文件里面,使用scripts字段定义脚本命令。里面的scripts字段是一个对象。它的每一个属性,对应一段脚本。定义在里面的脚本,就称为npm脚本。查看当前项目的所有 npm 脚本命令,可以使用不带任何参数的npm run命令。1.npm init -y 添加初始化文件记录安装信息,如果在后面加-S或者-D会自动创建该文件2.npm install 包名 –g (uninstall,update)
2024-06-28 11:45:00
733
课程实训-宾馆管理系统源码(JavaWeb+Tomcat+MySQL)含详细文档.zip
2025-02-10
数据仓库与数据挖掘大作业-Python频繁模式挖掘源码+文档+报告.zip
2025-02-10
Tello无人机二维码扫描与数字识别-Python+OpenCV实现含项目报告.zip
2025-02-10
智能家居控制系统-STM32+树莓派+Java Springboot+微信小程序源码.zip
2025-02-10
电子设计资料-无线调频发射器设计资料(含电路图+原理说明).zip
2025-02-10
期末大作业-基于微信小程序课堂管理系统后台开发方案 含源码.zip
2025-02-10
满分项目-Python二手车价格预测数据挖掘项目源码+报告+数据集.zip
2025-02-10
优秀毕设-频控阵与相控阵波束方向图MATLAB仿真研究含详细报告.zip
2025-02-10
课程实训-Python气象数据分析与可视化代码+文档说明+源码注释.zip
2025-02-10
课程设计-《大数据技术基础》数据集及源代码详解 含详细文档.zip
2025-02-10
课程实训-工业信息安全知识图谱数据集构建与探索-含项目源码.zip
2025-02-10
工业大数据创新竞赛冠军作品-2020水电站入库流量预测top1代码.zip
2025-02-10
服装图像检索-深度特征+内容基服装检索算法-附源码+设计报告.zip
2025-02-10
毕业设计-手机远程监控摄像头及云台机械臂控制系统 最新开发.zip
2025-02-10
毕业设计-基于文本分析的股票预测系统设计与实现 含项目报告.zip
2025-02-10
Vue+Egg.js全栈项目:动态菜单RBAC权限模型+Websocket站内信源码.zip
2025-02-10
毕设项目-基于TensorFlow的微震检测系统(深度学习)-最新开发.zip
2025-02-10
Selenium新浪微博关键字搜索结果爬虫-自动化数据抓取-最新开发.zip
2025-02-10
优秀毕设-Springboot+Vue校园二手交易平台源码+数据库+实验报告.zip
2025-02-10
2023省赛工程创新竞赛智能物流小车搬运赛道项目含源码及报告.zip
2025-02-10
股票数据爬虫+智能分析+可视化框架-金融投资必备-含项目报告.zip
2025-02-10
毕业设计-基于CARLA的高性能分布式自动驾驶仿真平台最新开发.zip
2025-02-10
毕设项目-薄荷网食物数据爬虫(Scrapy)-数据全面-含项目报告.zip
2025-02-10
毕业设计-Java SpringBoot餐厅点餐系统(功能全面,源码清晰).zip
2025-02-10
Matlab城市道路交通模糊控制系统源码+论文资料-毕业设计精选.zip
2025-02-10
毕设项目-1DCNN用于NIR光谱和土壤全氮回归预测(含全部资料).zip
2025-02-10
2023电赛MSP432P401R全功能板项目,附带例程与解析 含全部资料.zip
2025-02-10
优秀毕设-GEC6818平台Linux语音识别系统源码+文档说明最新开发.zip
2025-02-10
优秀毕设-Python词典分词方法NLP大作业源码+实验报告最新开发.zip
2025-02-10
优秀毕设-医疗知识图谱与自然语言处理联动-基于Neo4j与ChatGPT.zip
2025-02-10
课程实训-基于YOLOv8的AI自瞄项目(亲测可用+全部资料+报告).zip
2025-02-10
金融数据收集处理系统:期货+数字货币+A股数据整合 最新开发.zip
2025-02-10
课程实训-3D点云服装缝纫图案重建项目-含源码+教程+模型权重.zip
2025-02-10
机器学习大作业-人脸图像性别分类Python源码+数据集+实验报告.zip
2025-02-10
毕设项目-Python+Spark电影智能推荐系统设计与实现-含项目报告.zip
2025-02-10
毕业设计案例-Hadoop-Spark奥运会奖牌大数据分析源码+文档说明.zip
2025-02-10
Boss直聘岗位数据爬虫+分析+可视化-招聘助手-含全部资料+报告.zip
2025-02-10
毕设项目-PDF识别与分析+知识图谱构建+信息检索系统-最新开发.zip
2025-02-10
微博舆情分析系统源码+GUI可视化界面+文档说明-Python毕业设计.zip
2025-02-10
课程设计-大一网吧管理系统-C++开发-网吧运营助手-含详细文档.zip
2025-02-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人