
机器学习
javastart
专注于大数据 AI
展开
-
【机器学习】创建自己的电影推荐系统
介绍“每次我去看电影,不管电影是关于什么的,都很神奇。“——史蒂芬·斯皮尔伯格每个人都喜欢电影,不分年龄、性别、种族、肤色或地理位置。通过这种神奇的媒介,我们在某种程度上彼此联系在一起。然而,最有趣的是,我们的选择和组合在电影偏好方面是多么独特。有些人喜欢特定类型的电影,比如惊悚片、爱情片或科幻片,而另一些人则喜欢主演和导演。当我们考虑到所有这些因素时,要概括一部电影并说每个人都会喜欢它是非常困难的。但尽管如此,我们仍然可以看到相似的电影受到社会特定人群的喜爱。这就是我们作为数据科学家...转载 2021-05-04 19:04:44 · 500 阅读 · 0 评论 -
机器学习中距离和相似性度量方法
机器学习中距离和相似性度量方法在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:1) d(x,x) = 0 // 到自己的距离为02) d(x,y) >= 0 ...转载 2021-04-24 18:53:59 · 533 阅读 · 0 评论 -
Spark MLlib 官方指南手册中文版
Spark机器学习库(MLlib)指南 MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具: 1.机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。 2.特征工程:特征提取、特征转换、特征选择以及降维。 3.管道:构造、评估和调整的管道的工具。 4.存储:保存和加载算法、模型及管道 5.实用工具:线性代数,统计,数据处理等。 *注...原创 2021-04-11 15:53:59 · 60 阅读 · 0 评论 -
PyCharm搭建一劳永逸的开发环境
更新时间:2021年04月08日 10:53:50 作者:写代码的明哥 这篇文章主要介绍了PyCharm搭建一劳永逸的开发环境,本文通过图文并茂的形式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下本文已经收录于最新版的 《PyCharm中文指南》更多 PyCharm 使用技巧,可前往在线文档学习:《PyCharm 中文指南》2.0 在线文档在开发过程中难免遇到开发半小时,环境整半天的尴尬。有时候自己辛苦在自己电脑上搭建的环境,却只能自...原创 2021-04-10 11:03:18 · 326 阅读 · 0 评论 -
矩阵运算实现求样本与样本之间欧式距离
前言最近需要写关于kmeans的一些小程序,需要计算距离,直接写for循环又特别慢,再要是样本多一点,那简直了。细细一想,需要计算距离的地方还真不少,kmeans、KNN、图等等。1. 理论指导小学学过的公式,开平方:( a − b ) 2 = a 2 + b 2 − 2 a b (a-b)^2 = a^2+b^2-2ab(a−b)2=a2+b2−2ab,这里无非是转换成其矩阵形式。假设现在有两个矩阵,分别是A和B,分别包含2个和3个样本,每个样本有三个特征:先求ABT...转载 2021-04-04 18:25:47 · 375 阅读 · 0 评论 -
常用向量检索组件收集-持续更新中-大家推荐
一。MilvusMilvus 是 一款开源的、针对海量特征向量的相似性搜索引擎。Milvus能够很好地应对海量向量数据,它集成了目前在向量相似性计算领域比较知名的几个开源库(Faiss, SPTAG等),通过对数据和硬件算力的合理调度,以获得最优的搜索性能。二。Faiss - 高维向量相似度检索和聚类库Facebook 开源的一个高性能的高维向量相似度检索和聚类库。开源协议之前采用 BSD + Patents。最新版 v1.5.2 采用 MIT,可以在商业软件中使用。github 上有 60原创 2020-06-20 18:42:51 · 514 阅读 · 0 评论 -
Milvus在大规模向量检索场景下的数据管理
(一)Milvus是什么?Milvus 是 一款开源的、针对海量特征向量的相似性搜索引擎。Milvus能够很好地应对海量向量数据,它集成了目前在向量相似性计算领域比较知名的几个开源库(Faiss, SPTAG等),通过对数据和硬件算力的合理调度,以获得最优的搜索性能。用户只需要从docker hub上下载一个Milvus的最新镜像,一行命令即可启动,然后可以通过Python SDK或者Java SDK进行向量插入以及搜索操作,非常方便。更重要的是,Milvus是开源的!这意味着用户可以参与到...转载 2020-06-20 17:45:38 · 925 阅读 · 1 评论 -
吴恩达deeplearning之CNN—卷积神经网络入门
https://blog.csdn.net/ice_actor/article/details/78648780个人分类: 机器学习版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ice_actor/article/details/786487801.边界检测示例假如你有一张如下的图像,你想让计算机搞清楚图像上有什么物体,你可以做的...转载 2018-10-04 10:27:59 · 180 阅读 · 0 评论 -
第三十五节,目标检测之YOLO算法详解
Redmon, J., Divvala, S., Girshick, R., Farhadi, A.: You only look once: Unified, real-time object detection. In: CVPR. (2016)YOLO的全拼是You Only Look Once,顾名思义就是只看一次,把目标区域预测和目标类别预测合二为一,作者将目标检测任务看作目标区域预...转载 2018-09-26 22:50:34 · 3369 阅读 · 0 评论 -
基于Kinect 2.0深度图像的快速体积测量
基于Kinect 2.0深度图像的快速体积测量2017年微型机与应用第7期李玲玲1,王正勇1,卿粼波1,何海波2(1.四川大学 电子信息学院,四川 成都610065;2.成都西图科技有限公司, 四川 成都610000)摘要: 为了满足现实生活中对物体体积实时测量的需求,提出了一套基于Kinect 2.0深度图像处理的快速体积测量方案。首先,使用Kinect 2.0 深度传感器获得深度图...转载 2018-09-14 16:45:39 · 9386 阅读 · 7 评论 -
遗传算法的C语言实现(二)-----以求解TSP问题为
https://www.cnblogs.com/lyrichu/p/6152928.html上一次我们使用遗传算法求解了一个较为复杂的多元非线性函数的极值问题,也基本了解了遗传算法的实现基本步骤。这一次,我再以经典的TSP问题为例,更加深入地说明遗传算法中选择、交叉、变异等核心步骤的实现。而且这一次解决的是离散型问题,上一次解决的是连续型问题,刚好形成对照。 首先介绍一下TSP问题...转载 2018-09-09 11:13:39 · 969 阅读 · 0 评论 -
机器学习中,有哪些特征选择的工程方法?
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3.1.3 卡方检验 3.1.4 互信...转载 2018-04-12 20:22:08 · 250 阅读 · 0 评论 -
TensorFlow车牌识别完整版(含车牌数据集)
https://blog.csdn.net/ShadowN1ght/article/details/78571187在之前发布的一篇博文《MNIST数据集实现车牌识别--初步演示版》中,我们演示了如何使用TensorFlow进行车牌识别,但是,当时采用的数据集是MNIST数字手写体,只能分类0-9共10个数字,无法分类省份简称和字母,局限性较大,无实际意义。经过图像定位分割处理,博主...转载 2018-10-05 16:23:19 · 11194 阅读 · 5 评论 -
机器学习中,有哪些特征选择的工程方法?
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3.1.3 卡方检验 3.1.4 互信...转载 2018-04-03 19:42:42 · 184 阅读 · 0 评论 -
快速精准的人头检测,代码已开源
昨天arXiv一篇新上论文《FCHD: A fast and accurate head detector 》,来自江森自控(Johnson Controls Inc.)的软件工程师Aditya Vora分享了一种快速精准的人头检测(head detector)算法并开源了代码。先来看看作者发布的视频效果: 看起来还是不错的!人头检测在视频监控中非常重要,而公交车、商场或者大型场馆...转载 2018-09-27 13:27:08 · 23063 阅读 · 15 评论 -
八大机器学习框架对比及Tensorflow的优势
版权声明: https://blog.csdn.net/u013063153/article/details/54728628八大机器学习框架的对比:(1) TensorFlow:深度学习最流行的库之一,是谷歌在深刻总结了其 前身 DistBelief 的经验教训上形成的;它不仅便携、高效、可扩 展,还能再不同计算机上运行:小到智能手机,大到计算机集群都 能;它是一款轻量级的软件,...转载 2018-09-27 13:32:23 · 7583 阅读 · 0 评论 -
端到端车牌/验证码识别(tensorflow版)——(1)
端到端车牌/验证码识别(tensorflow版)——(1)2017年10月12日 21:24:07 ssmixi 阅读数:8564 标签: tensorflowcnn车牌识别 更多个人分类: 端到端车牌/验证码识别——Tensorflow版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ssmixi/article/details/782...转载 2018-10-05 12:16:15 · 999 阅读 · 1 评论 -
端到端车牌/验证码识别(tensorflow版)——(2)
端到端车牌识别(2)本文为端到端车牌识别 (1)的续。二 、CNN方法4. 模型训练先附上代码train.py:"""Created on Tue Sep 5 15:37:26 2017@author: llc"""#%%import osimport numpy as npimport tensorflow as tffrom input_data im...转载 2018-10-05 12:17:42 · 429 阅读 · 0 评论 -
GTX 2080TI TensorFlow GPU基准测试:2018年最佳GPU
有人经常问,深度学习的最佳GPU是什么?近日Lambda给出了答案,他们通过比较研究人员常用的前5个GPU来获得答案(测试结果也考虑到了成本和性能): RTX 2080 Ti RTX 2080 GTX 1080 Ti Titan V Tesla V100 · 结 · 果 · 总 · 结 · 截至2018年10月8日,N...转载 2018-10-12 19:23:20 · 11000 阅读 · 1 评论 -
如何用70行代码实现深度神经网络算法
本文转载自:https://blog.csdn.net/Trent1985/article/details/51483093?utm_source=blogxgwz0,如有侵权敬请告知,谢谢!现在所有人都在谈深度学习,保持学习精神是需要的,架构师永远都要对核心技术和关键算法保持关注和敏感,必要时要动手写一写掌握下来,先不用关心什么时候用到,用不用是政治问题,会不会写是技术问题,就像军人不...转载 2018-10-28 19:50:40 · 442 阅读 · 0 评论 -
模型上线和pmml简介
目前存在的几种模型上线的方式1、R+pmml+spark+airflow调度 其他团队用R语言训练模型并转为pmml文件,然后我们使用spark将这个pmml文件封装为jar,使用airflow提交到yarn。 val is: InputStream = fs.open(path)val pmml: PMML = PMMLUtil.unmarshal(is)modelEvaluator...转载 2018-11-07 19:33:21 · 6742 阅读 · 0 评论 -
端到端的OCR:基于CNN的实现
OCR是一个古老的问题。这里我们考虑一类特殊的OCR问题,就是验证码的识别。传统做验证码的识别,需要经过如下步骤:1. 二值化2. 字符分割3. 字符识别这里最难的就是分割。如果字符之间有粘连,那分割起来就无比痛苦了。最近研究深度学习,发现有人做端到端的OCR。于是准备尝试一下。一般来说目前做基于深度学习的OCR大概有如下套路:1. 把OCR的问题当做一个多标签学习...转载 2019-02-10 23:35:58 · 1837 阅读 · 1 评论 -
利用深度学习方法进行情感分析以及在海航舆情云平台的实践
javastart贡献值:0等級:L10发布0评论0顶发布链接发布图文 全部主题我关注的主题GEEKNEWSRustSwift全栈工程师/homePrestoDB人工智能前端Spark云计算潜水猿Container物联网(IoT)SDN安全技术翻译VR/ARAndroid开发者iOS开发转载 2017-02-21 18:40:20 · 5081 阅读 · 0 评论 -
通俗理解PCA降维作用
http://doc.okbase.net/u013719780/archive/239009.html注意:有些资料不能复制。用PCA降维本章我们将介绍一种降维方法,PCA(Principal Component Analysis,主成分分析)。降维致力于解决三类问题。第一,降维可以缓解维度灾难问题。第二,降维可以在压缩数据的同时让信息损失最小化。第三,理解几百个维度的数据结构很困难,两三个维度...转载 2018-03-29 20:38:48 · 12501 阅读 · 2 评论 -
智能分单算法
大数据讨论群:104595215 387084660大数据算法:385010646 nlp研究与讨论 413423481 hive impala 288047381 spark scala 464791668 机器学习与深度学习256154524 104595215微服务架构实战 181942601 用户画像交流193467273 docker 521020621转载 2017-11-07 20:39:54 · 1330 阅读 · 1 评论 -
机器学习实战教程(一):K-近邻算法(史诗级干货长文)
摘要本文将从k-近邻算法的思想开始讲起,使用python3一步一步编写代码进行实战训练。并且,我也提供了相应的数据集,对代码进行了详细的注释。除此之外,本文也对sklearn实现k-近邻算法的方法进行了讲解。实战实例:电影类别分类、约会网站配对效果判定、手写数字识别。一、简单k-近邻算法本文将从k-近邻算法的思想开始讲起,使用python3一步一步编写代转载 2017-11-07 20:18:29 · 916 阅读 · 0 评论 -
机器学习方法:回归(一):线性回归Linear regression
机器学习方法:回归(一):线性回归Linear regression标签: machine-learningregression线性回归2015-03-19 22:18 7937人阅读 评论(2) 收藏 举报本文章已收录于: 机器学习知识库 分类:机器学习 Machine Learning(38) 版权声明:本文为博主原转载 2017-04-09 13:58:18 · 680 阅读 · 0 评论 -
【机器学习详解】决策树与随机森林算法
【机器学习详解】决策树与随机森林算法2016-07-04 0 个评论 来源:勿在浮砂筑高台 收藏 我要投稿决策树决策树模型是一种树形结构,基于特征对实例进行分类或回归的过程。即根据某个特征把数据分划分到若干个子区域(子树),再对子区域递归划分,直到满足某个条件则停止划分并作为叶子节点,不满足条件则继续递归划分。转载 2017-02-26 19:04:44 · 613 阅读 · 0 评论 -
spark机器学习库指南[Spark 1.3.1版]——决策树(decision trees)
spark机器学习库指南[Spark 1.3.1版]——决策树(decision trees)fuqingchuan 机器学习 2015-03-22 3,477 次浏览 GINI, spark, 决策树, 熵 spark机器学习库指南[Spark 1.3.1版]——决策树(decision trees)已关闭评论下面是章节决策树的目录(其他内容参见全文目录)转载 2017-02-26 19:00:55 · 1259 阅读 · 0 评论 -
机器学习(三)决策树学习
机器学习(三)决策树学习一.简介 决策树学习是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树。二.决策树的表示法 决策树通过把实例从艮节点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每一个结点指定了对实例的某个属性的测试,并且该结点的每一个后继分支对应于该属性的一个可能值。分类实例的方法是从这棵树的根节点开始,测试这个结点的转载 2017-02-26 18:47:20 · 354 阅读 · 0 评论 -
Spark 低配版高斯朴素贝叶斯实现
Motivation 最近有项目用到Scikit-learn上的高斯朴素贝叶斯模型(简称GNB),随着数据量增大,单机上跑GNB肯定会很慢,所以打算转Spark上。然后发现MLlib并没有实现GNB,自己动手,丰衣足食~原理 GNB的原理是基于朴素贝叶斯,所以先交代朴素贝叶斯的原理。朴素贝叶斯贝叶斯公式P(Y∣X)=P(X∣Y)∗P(Y)P(X) 利用转载 2017-01-27 18:35:13 · 543 阅读 · 0 评论 -
opencv学习(三十二)之图像边缘检测Soble_Laplace_Canny
1. Sobel算子前面我们已经介绍了图像的卷积操作,而一个最重要的卷积运算就是对导数的计算,假设我们需要检测图像中的边缘部分,如下图所示: 前面我们介绍图像的高频和低频分量的时候说到,图像的高频分量一般出现在像素值显著改变的地方,而高频分量的出现就容易勾画出图像的轮廓。在高等数学中我们知道函数变化剧烈其所对应的导数值越大(极大值),所以表示图像像素值改变最大的一个方法就是求出图转载 2017-02-20 18:58:49 · 533 阅读 · 0 评论 -
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
机器之心编译 在我们日常生活中所用到的推荐系统、智能图片美化应用和聊天机器人等应用中,各种各样的机器学习和数据处理算法正尽职尽责地发挥着自己的功效。本文筛选并简单介绍了一些最常见算法类别,还为每一个类别列出了一些实际的算法并简单介绍了它们的优缺点。https://static.coggle.it/diagram/WHeBqDIrJRk-kDDY转载 2017-02-20 18:50:43 · 1878 阅读 · 0 评论 -
Spark-MLlib实例——决策树
Spark-MLlib实例——决策树通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:[plain] view plain copy 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。转载 2017-02-18 18:09:02 · 1643 阅读 · 0 评论 -
用Spark和DBSCAN对地理定位数据进行聚类
用Spark和DBSCAN对地理定位数据进行聚类2017-01-21 大数据文摘转自OReilly Data机器学习,特别是聚类算法,可以用来确定哪些地理区域经常被一个用户访问和签到而哪些区域不是。这样的地理分析使多种服务成为可能,比如基于地理位置的推荐系统,先进的安全系统,或更通常来说,提供更个性化的用户体验。在这篇文章中,我会确定对每个人来说特定转载 2017-02-05 19:50:40 · 3977 阅读 · 0 评论 -
如何解释spark mllib中ALS算法的原理?
如何解释spark mllib中ALS算法的原理?ALS交替最小二乘法的协同过滤算法,其原理是什么,算法的思想是怎样的?找了好久的资料都是一大堆专业名词和公式看着比较费力,有没有大大能用比较通俗的语言描述一下ALS算法添加评论 分享按投票排序按时间排序2 个回答小黑臭打字的5转载 2016-08-22 08:49:01 · 2036 阅读 · 0 评论 -
浅谈机器学习中的特征缩放(feature scaling)
浅谈机器学习中的特征缩放(feature scaling)标签: 机器学习数据2017-04-01 11:52 2300人阅读 评论(0) 收藏 举报 分类:机器学习(14) 版权声明:转载请注明来源,谢谢目录(?)[+]引言在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放(featu转载 2017-04-09 15:31:13 · 2594 阅读 · 0 评论 -
机器学习中,有哪些特征选择的工程方法?
作者:城东链接:https://www.zhihu.com/question/28641663/answer/110165221来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。我来写一个入门级的实践吧,为了保持连贯性,引用了全文:作者:城东链接:特征工程到底是什么? - 城东的回答来源:知乎著作权归作者所有。转载 2017-04-09 16:39:09 · 2150 阅读 · 0 评论 -
这次不忽悠:3个成功案例告诉你,开一家AI公司其实不难
这次不忽悠:3个成功案例告诉你,开一家AI公司其实不难人工智能 google 图像识别摘要: CNET科技行者 9月6日 北京消息:之前拆解了《忽悠VC指南,假装成一名人工智能专家的正确姿势》。这次,我们不忽悠 ,玩真的,带来升级版的“AI公司”速成攻略,并附上3个成功案例,揭露企业开创人工智能领域业务的三大方式。CNET科技行者 9月6日 北京消息:之前拆解了《忽悠V转载 2017-09-11 19:58:12 · 1051 阅读 · 0 评论 -
破解大数据应用难题 人工智能如何落地银行业
基于大数据构建金融知识图谱、基于社交网络与银行业核心数据识别并深度了解客户。这些都是如今银行业最需要实现落地的课题。 在科技金融借助“互联网+”迅速覆盖各行各业的当下,我国银行业金融科技化转型成效惊人。相关统计数据显示,目前国内大型商业银行的电子渠道交易占比已超过80%。大数据应用代替传统人工为银行业带来成本骤降的同时,大量沉淀数据也成为了各家银行的宝贵转载 2017-09-11 19:55:32 · 1509 阅读 · 0 评论