算法
文章平均质量分 70
AI信仰者
擅长机器学习和深度学习
擅长Java、Python、Javascript等编程语言
在金融、交通、工业等方向有丰富的项目经验
展开
-
麻雀算法SSA优化LSTM长短期记忆网络实现分类算法
本文主要讲解:麻雀算法SSA优化LSTM长短期记忆网络实现分类算法准备一份分类数据,数据介绍在第二章准备好麻雀算法SSA,要用随机数据跑起来用lstm把分类数据跑起来将lstm的超参数交给SSA去优化优化完的最优参数给lstm去做最后一次训练Cll:出料量Lsp:量水平Djzsp:电解质水平Djwd:工作温度Fzb:分子比Fe:铁含量Si:硅含量Ludiyajiang:压降Ddlsp:打点量水平Avv:平均电压wv:工作电压。原创 2023-03-06 22:52:31 · 2617 阅读 · 8 评论 -
cnn-bigru-attention对电池寿命进行预测
本文主要讲解:cnn-bigru-attention对电池寿命进行预测建立cnn-bigru-attention模型读取数据,将数据截成时序块训练模型,调参,评估模型,保存模型电池寿命数据。原创 2023-02-19 11:53:52 · 1238 阅读 · 2 评论 -
鲸鱼算法优化LSTM超参数-神经元个数-dropout-batch_size
本文主要讲解:使用鲸鱼算法优化LSTM超参数-神经元个数-dropout-batch_size原创 2022-11-12 14:40:25 · 5855 阅读 · 6 评论 -
灰狼算法优化LSTM超参数-神经元个数-dropout-batch_size
本文主要讲解:使用灰狼算法优化LSTM超参数-神经元个数-dropout-batch_size原创 2022-11-12 14:27:55 · 4234 阅读 · 9 评论 -
贝叶斯优化LSTM超参数
本文主要讲解:使用贝叶斯优化LSTM超参数原创 2022-08-04 13:24:44 · 6788 阅读 · 11 评论 -
PSO优化GRU-LSTM超参数
本文主要讲解:使用PSO优化GRU-LSTM超参数,神经元个数、学习率、dropout和batch_size建立GRU-LSTM模型定义PSO的参数:最大迭代次数、最大惯性权重、最小惯性权重、粒子数量、所有粒子的位置和速度、个体经历的最佳位置和全局最佳位置、每个个体的历史最佳适应值定义超参数搜索范围计算初始全局最优、全局最优参数、画适应度的图使用PSO找到的最好的超参数来重新训练模型评估模型:MSE、RMSE、MAE、MAPE、SMAPE、R2...原创 2022-08-02 22:42:48 · 6156 阅读 · 11 评论 -
交叉熵损失和focal_loss对比-BP神经网络
本文主要讲解交叉熵损失(categorical_crossentropy)和focal_loss对比-BP神经网络原创 2022-07-30 19:27:32 · 944 阅读 · 0 评论 -
CatBoost自动调参—Optuna和Hyperopt耗时和效果对比
本文主要讲解:Optuna和Hyperopt性能对比(catboost示例)原创 2022-05-05 20:07:54 · 3228 阅读 · 0 评论 -
自然语言处理NLP面试题
● Word2Vec中skip-gram是什么,Negative Sampling怎么做参考回答:Word2Vec通过学习文本然后用词向量的方式表征词的语义信息,然后使得语义相似的单词在嵌入式空间中的距离很近。而在Word2Vec模型中有Skip-Gram和CBOW两种模式,Skip-Gram是给定输入单词来预测上下文,而CBOW与之相反,是给定上下文来预测输入单词。Negative Sampling是对于给定的词,并生成其负采样词集合的一种策略,已知有一个词,这个词可以看做一个正例,而它的上下文词集可原创 2022-05-05 19:05:19 · 525 阅读 · 0 评论 -
optuna自动调参框架对lgb的超参进行优化
1、摘要本文主要讲解:使用微软自动化机器学习框架Auto ML-NNI对lgb的超参进行优化原创 2022-05-05 19:03:17 · 2190 阅读 · 0 评论 -
CNN+LSTM多通道特征组合模型
本文主要讲解:CNN+LSTM多通道特征组合模型原创 2022-05-05 18:52:01 · 5313 阅读 · 0 评论 -
cnn+lstm+attention对时序数据进行预测
本文主要讲解:cnn+lstm+attention对时序数据进行预测原创 2022-05-05 18:44:24 · 23817 阅读 · 134 评论 -
SSA麻雀算法-LSTM-优化神经网络神经元个数-dropout-batch_size
1、摘要本文主要讲解:使用SSA麻雀算法-LSTM-优化神经网络神经元个数-dropout-batch_size主要思路:SSA Parameters :优化函数、粒子数量、搜索维度、迭代次数原创 2022-03-28 21:13:28 · 8603 阅读 · 28 评论 -
PSO粒子群优化-LSTM-优化神经网络神经元个数dropout和batch_size
1、摘要本文主要讲解:PSO粒子群优化-LSTM-优化神经网络神经元个数dropout和batch_size,目标为对沪深300价格进行预测主要思路:PSO Parameters :粒子数量、搜索维度、所有粒子的位置和速度、个体经历的最佳位置和全局最佳位置、每个个体的历史最佳适应值LSTM Parameters 神经网络第一层神经元个数、神经网络第二层神经元个数、dropout比率、batch_size开始搜索:初始粒子适应度计算、计算初始全局最优、计算适应值、初始全局最优参数、适应度函数、更新原创 2022-01-12 20:59:02 · 16351 阅读 · 18 评论 -
PSO粒子群优化-LSTM-pyswarms框架-实现期货价格预测
1、摘要本文主要讲解:PSO粒子群优化-LSTM-pyswarms框架-实现期货价格预测主要思路:从网上找到影响期货价格预测的相关数据,爬取下来并处理好,形成时间序列训练数据使用train_test_split划分训练集和测试集训练数据和测试数据进行标准化处理:StandardScaler.fit_transform建立LSTM模型,激活函数用relu,使用SGD去优化使用pyswarms更新模型的权重画PSO-LSTM实际值与预测值结果图2、数据介绍上海期货交易所每月行情,请看文末原创 2021-10-30 20:29:04 · 7137 阅读 · 6 评论 -
SinGAN一张照片即可生成同样的照片(附简化版代码)
1、摘要本文主要讲解:SinGAN-一张照片即可生成一模一样的照片(附简化版代码)主要思路:先由一个Z_N输入到G_N的生成器得到生成图像(这一步是单纯由噪声生成,其他生成器的输入都是由随机噪声图像z_n和上一层生成的 上采样到当前生成器尺寸组成)。接着利用生成图像的图像块(每一层图像块的大小不一样,按照由粗糙到精细、由大到小)和当前层的图像块(由训练数据下采样得到)放入判别器中进行判断,直到两者不能被判别器区分。通过这种一层一层、由下往上的训练过程,得到最终的结果。2、相关技术SinGA原创 2021-10-09 23:01:09 · 3229 阅读 · 6 评论 -
孤立森林(IsolationForest)算法对数据进行异常检测
1、摘要本文主要讲解:使用孤立森林(IsolationForest)算法对主要思路:2、数据介绍3、相关技术4、完整代码和步骤代码输出如下:主运行程序入口在这里插入代码片5、学习链接原创 2021-07-25 10:57:05 · 3325 阅读 · 3 评论 -
GAN变种ACGAN利用手写数字识别mnist生成手写数字
1、摘要本文主要讲解:GAN的变种ACGAN实现手写数字识别并生成手写图片主要思路:Initialize generator and discriminatorInitialize weightsConfigure data loaderOptimizers AdamTrain GeneratorTrain DiscriminatorSaves a grid of generated digits ranging from 0 to 92、数据介绍minst手写数字识别数据集M原创 2021-06-24 22:56:02 · 2233 阅读 · 5 评论 -
AutoML-NNI中TPE对lgb算法的超参调参并优化
1、摘要本文主要讲解:使用微软自动化机器学习框架Auto ML-NNI对lgb的超参进行优化主要思路:设置需要优化的参数,用json格式保存为一个文件设置yml文件,用于调参算法和文件的配置写python文件,使用nni获取参数并调优参数使用 nnictl create 命令运行yml文件实现调优将调优后的网络参数放入默认参数中,运行python文件,实现调参优化并训练好模型2、数据介绍数据请到GitHub自行下载,参考文末的学习链接此数据为回归训练数据,第一列为标签列此数据为回原创 2021-06-20 12:33:34 · 1588 阅读 · 1 评论 -
微软AutoML平台NNI,ENAS基于参数共享的高效神经网络结构搜索
1、摘要ENAS——基于参数共享的高效神经网络结构搜索。ENAS使用子模型之间的参数共享来加速NAS进程。 在 ENAS 中,Contoller 学习在大的计算图中搜索最有子图的方式来发现神经网络。 Controller 通过梯度策略训练,从而选择出能在验证集上有最大期望奖励的子图。 同时对与所选子图对应的模型进行训练,以最小化规范交叉熵损失。2、相关技术介绍本文使用Pytorch实现ENAS,包括通用的强化学习的 Controller(用RL变换图的控制器),以及能交替训练目标网络和 Control原创 2021-05-22 15:55:41 · 881 阅读 · 1 评论 -
python_pygame_alpha-beta剪枝算法_玩中国象棋
本文主要内容:python Pygame alpha-beta剪枝算法 玩中国象棋 相当于入门水平,我还是能下赢它完整简洁并有详细注释的代码:python Pygame alpha-beta剪枝算法 玩中国象棋 相当于入门水平运行入口为:chinachess.py算法和代码解释请查看参考文献里的文章1、界面演示2、关键代码可视化中国象棋运行入口import timeimport pygameimport ChinaChess.constantsfrom ChinaChess原创 2021-03-14 14:56:24 · 2099 阅读 · 6 评论 -
AI人年度必看的222页报告!九大要点解读,中国AI论文引用首超美国
原文链接智东西(公众号:zhidxcom)编译 | 智东西编辑部编辑 | 漠影智东西3月4日消息,斯坦福大学刚刚发布一份222页的《2021年度AI指数报告》,从跨越十年的时间维度,对人工智能技术和产业的发展进行了分析解读。这是人工智能学术人和产业人每年必看的一份报告。自2017年以来,斯坦福大学连续4年推出AI指数报告,每一份都以包罗万象、数据详实而广受好评。《2021年度AI指数报告》涉及人工智能的学术研究、技术趋势、落地领域、国家政策、区域差异、求学就业、伦理等众多方面,麦肯锡、谷歌、Open转载 2021-03-05 14:03:02 · 1567 阅读 · 0 评论 -
山东数据大赛-供水管网压力预测-排名106-6.45分
任务通过某新区供水管网的历史压力数据、天气数据和供水管网互通图,预测未来某时间点的压力数据。数据主办方提供某新区供水管网数据,数据划分如下:训练集:2018至2019年的30个压力监测点近两年的压力数据、2018年至2019年的天气数据,以及标明了30个压力监测点位置的供水管网互通图。测试集:以下4段时间的每小时的压力数据、每天的天气数据,需要分别去预测对应日期每小时的压力数据。具体数据字段描述如下:(1)压力数据(2)气象数据总体思路如下:把原本为列名的小时改成Hour字段,原创 2021-02-07 15:19:52 · 1672 阅读 · 6 评论 -
CCF-基于买方意向的货物撮合交易
赛题名:基于买方意向的货物撮合交易背景:期货市场上的货物卖方和货物的买方期望通过期货市场进行货物买卖,达到买卖双方钱货交换的目的(买方从卖方获取货物并向卖方支付对应货款)。代码,明天继续更新# encoding:utf-8import os'''1)货物数量均为正整数,且所有买方购买货物数量总和等于所有卖方公布的货物数量总和。2)货物编号为货物的唯一编号,不同卖方客户可持有相同货物编号的货物,其可拆分分配给不同的买方客户,但拆分后的数量也必须为正整数,其货物编号也保持不变;同一买方客户从原创 2020-12-09 22:35:52 · 1286 阅读 · 4 评论 -
电商用户购买行为预测-排名48-0.23
任务:依据电子商务平平台上真实的用户行为记录,利用机器学习相关技术,建立稳健的电商用户购买行为预测模型,预测用户下一个可能会购买的商品。数据简介数据整理自一家中等化妆品在线商店公布的网上公开数据集,为该化妆品商店真实的用户交易信息,数据集中每一行表示一个事件,所有的事件都与商品和用户相关,并且用户的点击行为之间是有时间顺序的。数据集中包含了商品和用户的多个属性,例如商品编号、商品类别、用户编号、事件时间等。数据说明提交要求我的成绩主要思路对用户id进行分组统计类别、品牌、收藏、加购物原创 2020-12-08 20:01:52 · 10357 阅读 · 54 评论 -
CCF-野外环境中的蝴蝶自动识别-排名54
任务依据给定的蝴蝶在野外环境中的图像以及对应的标注文件,建立机器学习、深度学习模型来对图像中的蝴蝶进行目标检测。数据说明用于竞赛的数据集应下载至datasets文件夹下,下载地址为http://www.sciencedb.cn/dataSet/handle/706,下载后应共有两个文件夹:Annotations和JPEGImages。其中Annotations为数据集的标注信息文件夹,包含每个训练图像对应的xml文件,内容格式可参考pascal voc 2007数据集中的标注文件格式,采用UTF-8原创 2020-12-07 20:27:22 · 2643 阅读 · 0 评论 -
大数据时代的Serverless工作负载预测-排名80_0.313
赛题名:大数据时代的Serverless工作负载预测背景:云计算时代,Serverless软件架构可根据业务工作负载进行弹性资源调整,这种方式可以有效减少资源在空闲期的浪费以及在繁忙期的业务过载,同时给用户带来极致的性价比服务。在弹性资源调度的背后,对工作负载的预测是一个重要环节。如何快速感知业务的坡峰波谷,是一个实用的Serverless服务应该考虑的问题。任务:传统的资源控制系统以阈值为决策依据,只关注当前监控点的取值,缺少对历史数据以及工作负载趋势的把控,不能提前做好资源的调整,具有很长的滞后性。原创 2020-11-16 21:03:55 · 1981 阅读 · 8 评论 -
资金流入流出预测-挑战Baseline-排名445 /122.17
介绍蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,面对如此庞大的用户群,资金管理压力会非常大。在既保证资金流动性风险最小,又满足日常业务运转的情况下,精准地预测资金的流入流出情况变得尤为重要。此届大赛以《资金流入流出预测》为题,期望参赛者能够通过对例如余额宝用户的申购赎回数据的把握,精准预测未来每日的资金流入流出情况。对货币基金而言,资金流入意味着申购行为,资金流出为赎回行为 。具体请移步:资金流入流出预测思路介绍:计算统计特征把时间作为时序特征构建cnn模型具体代码:原创 2020-11-08 12:33:17 · 1779 阅读 · 2 评论 -
天池新人赛-新浪微博互动预测-挑战Baseline-排名329-0.29%
竞赛题目对于一条原创博文而言,转发、评论、赞等互动行为能够体现出用户对于博文内容的兴趣程度,也是对博文进行分发控制的重要参考指标。本届赛题的任务就是根据抽样用户的原创博文在发表一天后的转发、评论、赞总数,建立博文的互动模型,并预测用户后续博文在发表一天后的互动情况。请移步:新浪微博互动预测具体思路:计算统计特征对日期解析自定义评分函数训练和预测main.py主要运行程序from tianchi.weibo_forecast.features import uid_features原创 2020-11-08 12:28:48 · 3847 阅读 · 4 评论 -
天池新人赛-Repeat Buyers Prediction-Challenge the Baseline-排名167
问题定义商家有时会在特定日期(如节礼日销售、“黑色星期五”或“双11”(11月11日)进行大促销(例如折扣或现金优惠券),以吸引大量新买家。不幸的是,许多被吸引的买家都是一次性的买家,而这些促销活动可能不会对销售产生持久的影响。为了缓解这一问题,对于商家来说,确定哪些人可以转化为回头客很重要。通过锁定潜在的客户,可以大大降低潜在的投资回报率。众所周知,在网络广告领域,顾客定位是一项极具挑战性的工作,尤其是对于刚入行的消费者。但是,随着用户行为日志的长期积累天猫网,我们也许能解决这个问题。我们提供一组在“原创 2020-11-08 12:20:12 · 1390 阅读 · 2 评论 -
天池新人实战赛o2o优惠券使用预测-排名181
数据本赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内的使用情况。具体请移步:o2o优惠券使用预测具体思路:去除不要的特征填充空值计算统计特征使用[‘gbdt’, ‘xgb’, ‘rf_gini’, ‘et_gini’, ‘lgb’, ‘cat’]做blending去预测模型1:分数0.8# 解决lgb报错import osos.environ["KMP_DUPLICATE_LIB_OK"] = "TRU原创 2020-11-08 12:12:04 · 1608 阅读 · 1 评论 -
阿里云安全恶意程序检测-排名295
赛题说明本题目提供的数据来自文件(windows 可执行程序)经过沙箱程序模拟运行后的API指令序列,全为windows二进制可执行程序,经过脱敏处理。本题目提供的样本数据均来自于从互联网。其中恶意文件的类型有感染型病毒、木马程序、挖矿程序、DDOS木马、勒索病毒等,数据总计6亿条。具体请移步:阿里云安全恶意程序检测数据说明简单思路:数据量过大,改变数据类型减少内存使用交叉验证lgb效果还不错具体代码:from tqdm import tqdm_notebookclass _Dat原创 2020-11-08 11:31:46 · 1990 阅读 · 5 评论 -
天池新人赛-零基础入门数据挖掘 - 二手车交易价格预测-排名374
赛题介绍:赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。具体介绍:二手车交易价格预测具体思路:用中位数填充空值修改异常数据特征归一化切分数据集使用神经网络和极端回归树做Stacking提交记录:主要运行代原创 2020-11-08 11:04:51 · 1463 阅读 · 2 评论 -
天池长期赛-测测你的一见钟情指数-排名第1
赛题介绍:数据集的内容包括实验志愿者的性别、年龄、人种、专业、地区、收入等特征,以及志愿者对配偶是否来自同一地区、同一信仰等观点的预期。选手可以针对数据集不同字段间的相互影响进行分析,训练一个机器学习模型,去预测实验人身上一个或多个特性对其相亲成功与否的影响。也就是利用其它特征信息,预测数据集中的“match”字段的结果,1=成功,0=不成功。具体介绍请移步:测测你的一见钟情指数具体思路:1、筛选特征、构造数据2、使用极端回归树算法进行预测代码如下:import osimport matp原创 2020-11-08 10:45:11 · 3114 阅读 · 5 评论 -
天池新人赛-零基础入门金融风控-贷款违约预测-排名174
赛题以预测用户贷款是否违约为任务,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。详细介绍请移步天池:贷款违约预测详细思路:查看缺失值情况按照平均数填充数值型特征按照众数填充类别型特征通过对数函数映射到指数宽度分箱高维类别特征需要进行转换选择K个最好的特征,返回选择特征后的数原创 2020-11-08 10:39:05 · 3939 阅读 · 8 评论 -
超级码力机器学习岗位_面试题笔试题
超级码力机器学习岗位选拔笔试第一题:1.用一个你觉得效果最好的分类算法(e.g., SVM,RF,ANN,etc.)对Test1的data进行classification建模,用5-fold crossvalidation来计算预测的AUC或F-measure。若电脑计算能力不足可用3-fold。对于有些本身就含有cross validation功能的算法可以不用cross validation来稳定结果。(PS,对于非计算机系的同学,以python或R为例,各种分类算法以及AUC的计算都可以在网上找原创 2020-08-30 14:30:55 · 340 阅读 · 0 评论 -
三态电子商务公司算法岗面试题_使用逻辑回归预测宾馆下单的概率
访谈问题问题描述:房间共享公司(如Airbnb)希望帮助客房供应商他们的房间价格合理。其中一个关键步骤是建立一个模型来预测在一定条件下,一个房间的购买概率(由某些特征和日期描述)数据发布在:三态电子商务公司算法岗面试题(培训5万人次,测试数据2万人次)目标:建立一个模型来预测每个测试数据的购买概率。我们将评估根据结果的AUC建模(因此请给出每个测试数据的概率)。答案格式:1) 预测结果:包含结果的csv文件。要使文件变小,只需要保留ID和answer列(列名为[ID,possibili原创 2020-08-30 12:56:29 · 1328 阅读 · 1 评论