机器学习
stay_foolish12
本科统计学,研究生计算机应用技术。可以【接 】大学计算机课程设计、课程大作业,C++\C\JAVA\汇编\Golang\PHP等相关语言,MySQL\SQLServer等数据库,Linux操作系统,人工智能、数据挖掘、数据分析、自然语言处理等相关课程均可
展开
-
通俗理解kaggle比赛大杀器xgboost
xgboost一直在竞赛江湖里被传为神器,比如时不时某个kaggle/天池比赛中,某人用xgboost于千军万马中斩获冠军。而我们的机器学习课程里也必讲xgboost,如寒所说:“RF和GBDT是工业界大爱的模型,Xgboost 是大杀器包裹,Kaggle各种Top排行榜曾一度呈现Xgboost一统江湖的局面,另外某次滴滴比赛第一名的改进也少不了Xgboost的功劳”。转载 2022-10-10 16:13:58 · 768 阅读 · 0 评论 -
多文本分类小笔记
卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。卡方分析检验的目的就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小。探索性分析:相关关系,和因果关系。Auc:假阳性率和真阳性率,为了去欸的那个分类的阈值,并确定比例。原创 2022-10-08 14:52:16 · 332 阅读 · 0 评论 -
吴恩达:机器学习的六个核心算法
60 年后,他的同胞 Jacques Hadamard 独立开发了它来描述薄而灵活的物体(如地毯)的变形,这可能会使膝盖向下徒步更容易。他的思想是理性的而不是非理性的。而神经网络的灵感来自大脑的结构:一层层相互连接的神经元,每个神经元根据其相邻状态来计算自己的输出,由此产生的一连串活动形成了一个想法——或识别出一张猫的照片。例如,带有正则化的线性回归(也称为「岭回归」,ridge regression)鼓励线性回归模型不要过多地依赖于任何一个变量,或者更确切地说,均匀地依赖于最重要的变量。转载 2022-08-24 09:24:21 · 233 阅读 · 0 评论 -
飞浆在深度学习的应用
原创 2022-05-06 15:25:34 · 544 阅读 · 0 评论 -
深度学习平台实践
****原创 2022-05-06 15:03:00 · 241 阅读 · 0 评论 -
使用交叉验证去验证逻辑回归
import pandas as pd Data=pd.read_csv ('C:\\Dataset.csv',index_col='SNo')feature_cols=['A','B','C','D','E']X=Data[feature_cols]Y=Data['Status'] Y1=Data['Status1'] # predictions from elsewhereY2=Data['Status2'] # predictions from elsewherefrom skle原创 2021-04-01 10:15:14 · 1535 阅读 · 1 评论 -
机器学习算法中的准确率、精确率、召回率和F值
机器学习算法中的准确率、精确率、召回率和F值:https://www.jianshu.com/p/d400a821ef3d原创 2021-03-31 14:34:49 · 513 阅读 · 0 评论 -
谈谈工业界落地能力最强的机器学习算法
尽管BERT为代表的预训练模型大肆流行,但是身处工业界才会知道它落地有多难,尤其是QPS动辄几百的在线推荐、搜索系统,哪怕在大厂也很难在线上系统见到它们。今天就想反其道而行之,谈谈工业界搜索、推荐、广告这类核心场景中落地能力最强的算法(之一):因子分解机(FM)。我不敢说它是最简单的(FM的确很简单),但是作为一个推荐算法调参工程师,掌握FM一定是性价比最高的。我推崇FM算法的原因,有以下三点:功能齐全众所周知,推荐算法有三个应用领域:召回、粗排、精排。推荐算法千千万,但是有的算法只能用于召回,有的算原创 2020-12-15 10:12:52 · 627 阅读 · 0 评论 -
机器学习数据集汇总(附下载地址)
大学公开数据集(Stanford)69G大规模无人机(校园)图像数据集【Stanford】http://cvgl.stanford.edu/projects/uav_data/人脸素描数据集【CUHK】http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html自然语言推理(文本蕴含标记)数据集【NYU】https://www.nyu.edu/projects/bowman/multinli/Berkeley图像分割数据集BSDS500【Berkeley】https转载 2020-10-13 10:54:00 · 1475 阅读 · 0 评论 -
训练数据量中关于batch_size,iteration和epoch的概念
batch_size机器学习使用训练数据进行学习,针对训练数据计算损失函数的值,找出使该值尽可能小的参数。但当训练数据量非常大,这种情况下以全部数据为对象计算损失函数是不现实的。因此,我们从全部数据中选出一部分,作为全部数据的“近似”。神经网络的学习也是从训练数据中选出一批数据(称为 mini-batch,小批量),然后对每个mini-batch进行学习。比如,从60000个训练数据中随机选取100个数据,用这100个数据进行学习,这种学习方式成为 mini-batch 学习。用mini-batch的方原创 2020-07-16 16:37:50 · 3576 阅读 · 6 评论 -
程序员是这样解读《隐秘的角落》:用机器学习识别唇语,还原对话
程序员是这样解读《隐秘的角落》:https://xie.infoq.cn/article/f60d2a6cda281a40b97eecf4b唇语识别技术的开源教程,听不见声音我也能知道你说什么!:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/83745695原创 2020-07-10 16:46:44 · 535 阅读 · 0 评论 -
爬取词库,使用jieba分词库,自定义dict.txt文件+将搜狗词库.scel文件为.txt文件
一:爬取词库,使用jieba分词库,自定义dict.txt文件import jiebafrom urllib.request import urlopenfrom bs4 import BeautifulSoup# 来源于地图搜索数据,按照网民输入习惯精心筛选使用较多的词条。包含城市地名、公交、购物、餐饮、楼盘等各种信息,适合本地区网友使用url = "http://search.qinggl.com/dict-3687.html"html = urlopen(url).read().原创 2020-06-17 12:24:04 · 2607 阅读 · 2 评论 -
requirements.txt一键安装项目所需要的的python包
pip install -r requirements.txt 后程序出错解决办法https://blog.csdn.net/muguangzhichen/article/details/100572933?depth_1-python 在安装依赖:pip install -r requirements.txt 执行命令时报错的解决办法https://blog.csdn.net/shangdi1988/article/details/79071983?depth_1-...原创 2020-06-17 10:01:50 · 953 阅读 · 0 评论 -
ArchSummit2016干货分享+美团:即时物流调度平台实践+一点资讯:兴趣引擎-深度融合搜索和推荐+阿里-智能问答系统的实践
**2015年7月**加入滴滴打车3个半月,感觉遇到和解决的技术问题超过之前1年的。写在这里给大家分享。滴滴这边负责所有策略算法设计的是“策略组”,大概有20几个员工。由于滴滴的业务线越来越多(出租车,专车,快车,顺风车拼车,大巴),项目上线时间紧,没有时间对策略算法做最好的设计和优化。于是,新成立了一个通用模型组,目标是抽取出不同业务线的共同点,在一个更高的角度设计更好的策略算法,特别是...转载 2019-05-23 09:01:36 · 2365 阅读 · 0 评论 -
神经网络不应视为模型,推理过程当为机器学习问题一等公民
首发于论智关注专栏写文章神经网络不应视为模型,推理过程当为机器学习问题一等公民论智已认证的官方帐号关注他14 人赞同了该文章作者:Jacob Andreas编译:weakish编者按:Microsoft Semantic Machines资深研究科学家、UC Berkeley计算机科学博士Jacob Andreas指出,神经网络不应视为模型,因为神经网络的模型和推理过程不可分割。应该将推理过程...转载 2019-06-07 16:30:12 · 418 阅读 · 0 评论 -
TensorFlow 全网最全学习资料汇总之TensorFlow的技术应用
谷歌于2015年11月发布了全新人工智能系统TensorFlow。该系统可被用于语音识别或照片识别等多项机器深度学习领域,主要针对2011年开发的深度学习基础架构DistBelief进行了各方面的改进,它可在小到一部智能手机、大到数千台数据中心服务器的各种设备上运行。那么为什么会产生TensorFlow系统,以及谷歌为何将其开源?这个问题可以看雷锋网文章《Google开源TensorFlow...转载 2019-06-05 15:14:40 · 1284 阅读 · 0 评论 -
谷歌、微软、OpenAI等巨头七大机器学习开源项目 看这篇就够了
在人工智能行业,2015-2016 出现了一个不同寻常的趋势:许多重量级机器学习项目纷纷走向开源,与全世界的开发者共享。加入这开源大潮的,不仅有学界师生,更有国内外的互联网巨头们:国内有百度和腾讯,国外的有谷歌、微软、IBM、Facebook、OpenAI 等等。本文总结了国外各家互联网巨头的七大开源机器学习项目:| Google:TensorFlowTensorFlow 发布于 2015 年 1...原创 2019-06-05 15:07:18 · 3500 阅读 · 1 评论 -
用深度学习(CNN RNN Attention)解决大规模文本分类问题
一、传统文本分类方法 文本分类问题算是自然语言处理领域中一个非常经典的问题了,相关研究最早可以追溯到上世纪50年代,当时是通过专家规则(Pattern)进行分类,甚至...转载 2019-05-18 12:36:19 · 1620 阅读 · 0 评论 -
机器学习中的特征建模(特征工程)和算法选型建模 - 以暴力破解识别为例
catalogue1. 特征工程是什么?有什么作用?2. 特征获取方案 - 如何获取这些特征?3. 特征观察 - 运用各种统计工具、图标等工具帮助我们从直观和精确层面认识特征中的概率分布4. 特征处理 - 特征清洗5. 特征护理 - 特征预处理6. 特征处理 - 特征选择7. 特征监控 1. 特征工程是什么?有什么作用?从某种程度上来说,数据和特征决定了机器学习的...转载 2019-05-18 10:29:34 · 11439 阅读 · 0 评论 -
干货 | 机器学习算法在饿了么供需平衡系统中的应用
干货 | 机器学习算法在饿了么供需平衡系统中的应用image:url(https://ask.qcloudimg.com/avatar/1292807/6341kxs4h2.png?imageView2/2/w/72)">用户1292807发表于携程技术中心订阅830作者简介陈宁,饿了么人工智能与策略部高级算法专家,负责供需平衡系统的算法与研发工作。获新加坡南洋理工大学计算机博士学位,研究...转载 2019-05-23 10:44:02 · 2016 阅读 · 0 评论 -
## 作为多目标优化的多任务学习:寻找帕累托最优解+组合在线学习:实时反馈玩转组合优化-微软研究院+用于组合优化的强化学习:学习策略解决复杂的优化问题
组合在线学习:实时反馈玩转组合优化看似无比困难的权衡问题,如今组合在线学习就能帮你“算出”最优解,轻松破解传统组合优化问题。本文中,我们邀请到微软亚洲研究院资深研究员陈卫为大家多面解读组合在线学习的奥妙之处。什么是组合在线学习?大家都曾有过这样的经历,在我们刷微博或是阅读新闻的时候,经常会看到一些自动推荐的内容,这些信息可以根据你对推送的点击情况以及阅读时间等来调整以后的推送选择。再比如,手...转载 2019-05-23 10:24:05 · 10527 阅读 · 0 评论 -
解读 | 滴滴主题研究计划:机器学习专题+
解读 | 滴滴主题研究计划:机器学习专题(上篇) 解读 | 滴滴主题研究计划:机器学习专题(上篇) 20...转载 2019-05-23 09:58:58 · 1819 阅读 · 0 评论 -
观点 | 滴滴 AI Labs 负责人叶杰平教授:深度强化学习在滴滴的探索与实践+关于滴滴智能调度的分析和思考+滴滴派单和Uber派单对比
AI 科技评论按:7 月 29 日,YOCSEF TDS《深度强化学习的理论、算法与应用》专题探索报告会于中科院自动化所成功举办,本文为报告会第一场演讲,讲者为滴滴副总裁、AI Labs 负责人叶杰平教授,演讲题为「深度强化学习在滴滴的探索与实践」,AI 科技评论对本次演讲内容进行了重点整理。据介绍,现在的滴滴平台每日路径规划请求 400 多亿次,每日新增 100+TB 的轨迹原始数据,每日处理数...转载 2019-05-23 09:29:38 · 4402 阅读 · 0 评论 -
谷歌最强NLP模型BERT官方代码来了!GitHub一天3000星
新智元报道 来源:GitHub作者:Google Research 编辑:肖琴【新智元导读】谷歌AI团队终于开源了最强NLP模型BERT的代码和预训练模型。从论文发布以来,BERT在NLP业内引起巨大反响,被认为开启了NLP的新时代。BERT的官方代码终于来了!昨天,谷歌在GitHub上发布了备受关注的“最强NLP模型”BERT的TensorFlow代码和预训练模型,不到一天时间,已经获...转载 2019-06-07 16:51:51 · 5101 阅读 · 0 评论 -
【干货】推荐系统中的机器学习算法与评估实战
【导读】推荐系统是机器学习技术在企业中最成功和最广泛的应用之一。本文作者结合MLMU演讲【1】的Slides,对推荐系统的算法、评估和冷启动解决方案做了详细的介绍。作者 | Pavel Kordík编译 | 专知翻译 | XiaowenMachine Learning for Recommender systems — Part 1 (algorithms, evaluation and cold...转载 2019-06-03 14:48:20 · 913 阅读 · 0 评论 -
神经网络算法学习---mini-batch++++mini-batch和batch的区别
Batch_Size(批尺寸)是机器学习中一个重要参数,涉及诸多矛盾,下面逐一展开。首先,为什么需要有 Batch_Size 这个参数?Batch 的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用全数据集 ( Full Batch Learning )的形式,...转载 2019-06-14 16:41:00 · 7173 阅读 · 0 评论 -
BAT机器学习面试1000题系列
1、本文的内容全部来源于七月在线发布的BAT机器学习面试1000题系列;2、文章中带斜体的文字代表是本人自己增加的内容,如有错误还请批评指正;3、原文中有部分链接已经失效,故而本人重新加上了新的链接,如有不当,还请指正。(也已用斜体标出)4、部分答案由于完全是摘抄自其它的博客,所以本人就只贴出答案链接,这样既可以节省版面,也可以使排版更加美观。点击对应的问题即可跳转。最后,此博文的排版已经...转载 2019-04-01 10:47:41 · 1345 阅读 · 0 评论 -
无题
2019 秋招,其实有很多金融行业岗位在等你原文地址:https://zhuanlan.zhihu.com/p/43828729金融业是指经营金融商品的特殊行业,它包括银行业、保险业、信托业、证券业和租赁业。目前 Fintech 的概念受到了很多金融和互联网公司的追捧,金融行业中出现了越来越多计算机专业的岗位,而在一些互联网金融公司中,也提供了计算机与金融交叉的岗位。很多计算机专业的同学都对金...转载 2019-07-21 19:11:32 · 688 阅读 · 0 评论 -
用户画像
如何用大数据构建精准用户画像?https://www.fengli.com/news/23245352.html转载 2019-07-21 09:56:23 · 256 阅读 · 0 评论 -
随机森林:提供银行精准营销解决方案
原文地址:https://blog.csdn.net/weixin_34233679/article/details/88480912 本例是根据科赛网练习赛进行练手,学习巩固一下随机森林建模以及应用。赛题描述本练习赛的数据,选自UCI机器学习库中的「银行营销数据集(Bank Marketin...转载 2019-07-30 10:39:29 · 2046 阅读 · 1 评论 -
干货 | 搞定用户画像只需5个步骤
【转】http://www.sohu.com/a/115611583_445326有一句话是,千万人撩...转载 2019-07-17 11:50:11 · 1556 阅读 · 0 评论 -
金融行业如何用大数据构建精准用户画像?
原文地址:https://www.jianshu.com/p/6e0a0ca5948e 1. 什么是用户画像?2. 用户画像的四阶段用户画像的焦点工作就是为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、用户偏好等,最后将用户的所有标签综合来看,就可以勾勒出该用户的立体“画像”了。...转载 2019-07-17 11:45:50 · 3949 阅读 · 0 评论 -
大数据项目(四)————用户画像
1、用户画像概述用来勾画用户(用户背景、特征、性格标签、行为场景等)和联系用户需求与产品设计的,旨在通过从海量用户行为数据中炼银挖金,尽可能全面细致的抽出一个用户的信息全貌,从而帮助解决如何把数据转为商业价值的问题。 1.1 用户画像数据来源 用户画像数据来源中连个最终要的数据就是用户属性以及物品属性,有了这两个,我们就可以从用户-用户、用户-电影、电影-电影三方面展开相应的相似度计算从...转载 2019-07-17 11:38:19 · 1440 阅读 · 0 评论 -
【数据应用案例】用户画像与实践案例
——————思考: 用户画像的最佳实践还是在互联网或者电信...转载 2019-07-17 11:26:38 · 2411 阅读 · 1 评论 -
智能投顾-用户画像、投资组合选择、推荐引擎、大数据挖掘
智能投顾面面观之AI慕课 <!-- 作者区域 --> <div class="author"> <a class="avatar" href="/u/be1ed69aa45c"> <img src="//upload.jianshu.io/users/upload_avatars/3719463...转载 2019-07-19 09:06:49 · 17650 阅读 · 0 评论 -
到底什么是生成式对抗网络GAN?
时间:2017-05-11 男:哎,你看我给你拍的好不好?女:这是什么鬼,你不能学学XXX的构图吗?男:哦……男:这次你看我拍的行不行?女:你看看你的后期,再看看YYY的后期吧,呵呵男:哦……男:这次好点了吧?女:呵呵,我看你这辈子是学不会摄影了……男:这次呢?女:嗯,我拿去当头像了上面这段对话讲述了一位“男朋友摄影师”的成长历程。很多...转载 2019-06-11 14:26:57 · 549 阅读 · 0 评论 -
机器学习中的最优化算法总结
https://zhuanlan.zhihu.com/p/42689565机器学习中的最优化算法总结对于几乎所有机器学习算法,无论是有监督学习、无监督学习,还是强化学习,最后一般都归结为求解最优化问题。因此,最优化方法在机器学习算法的推导与实现中占据中心地位。在这篇文章中,SIGAI将对机器学习中所使用的优化算法做一个全面的总结,并理清它们直接的脉络关系,帮你从全局的高度来理解这一部分知识。机器...转载 2019-05-23 08:49:57 · 1756 阅读 · 0 评论 -
SQuAD文本理解挑战赛十大模型解读
教机器学会阅读是近期自然语言处理领域的研究热点之一,也是人工智能在处理和理解人类语言进程中的一个长期目标。得益于深度学习技术和大规模标注数据集的发展,用端到端的神经网络来解决阅读理解任务取得了长足的进步。转载:https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/79056446本文是一篇机器阅读理解的综述文章,主要聚焦于介绍公布在 SQ...转载 2019-05-20 10:14:40 · 1353 阅读 · 0 评论 -
图解Transformer-一篇文章看懂transformer
原文标题:The Illustrated Transformer原文链接:https://jalammar.github.io/illustrated-transformer/论文地址:https://arxiv.org/abs/1706.03762前言 ...转载 2019-05-06 18:44:34 · 5081 阅读 · 1 评论 -
注意力机制-深度学习中的注意力机制+注意力机制在自然语言处理中的应用
1 深度学习中的注意力机制https://mp.weixin.qq.com/s?__biz=MzA4Mzc0NjkwNA==&mid=2650783542&idx=1&sn=3846652d54d48e315e31b59507e34e9e&chksm=87fad601b08d5f17f41b27bb21829ed2c2e511cf2049ba6f5c7244c6e...转载 2019-04-12 10:37:41 · 1470 阅读 · 0 评论