机器学习
文章平均质量分 90
shiter
CSDN博客专家,人工智能与大数据领域优秀创作者,累计近500W人次访问。 熟悉自然语言处理(NLP)、大数据(Spark 、Elasticsearch)、数据分析(Scala,Python),计算机视觉(OpenCV、立体匹配)等领域的研发工作。世界500强,高级算法工程师, 曾参与并负责国家级大数据项目,负责大健康平台相关开发与管理工作,负责金融行业AI与大数据平台产品设计、开发与落地。编程不仅仅是技术,还是艺术!talk is cheap,show me the code!
展开
-
机器学习算法与Python实践之(五)k均值聚类(k-means)
机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。 机器学习中有两类的大问题,一个是分类,一个是聚类。分类是根据一些给定的已知类别标号的样本,训练某种学习机器,使它能够对未知类别转载 2014-04-27 20:01:02 · 3768 阅读 · 0 评论 -
均值与期望:傻傻分不清?
前些日子偶然间听到一位新同事问一位做算法的同事:均值是不是期望?老算法回答说:这是不同的概念。说完之后,由于有事就急匆匆的走了。偶听到之后狐疑了一会,打开了搜索引擎。当然,答案是非常明晰且简单的,均值严格来说就是期望。然而在查阅网上相关讨论时发现很多人对它们是分不清的。后来思来想去,为什么造成如此大的误解?直至近日有了答案。由于语言等方面的原因,通常人们口中说到均值的时候,是在谈论平均值。因此,以上的混乱事实上是对平均值和期望的混乱。原创 2018-05-04 17:01:07 · 65768 阅读 · 15 评论 -
你是不是傻,怎么不选最好的?
作者: 一人前些日子听一档节目,嘉宾讲了自己朋友的一个故事,这个朋友称为老甲吧!老甲在九几年在上海交通大学读本科,大学四年一晃很快过去了,要毕业找工作。那个年代流行出国留学,老甲也有此打算。话说,老甲有个老表哥在杭州的电子城给人家撺掇电脑,在卖电脑的过程中,认识了一个创业的小伙子,两人有缘聊得很投机,小伙子就邀请老表哥加入他们公司。老表哥当时有家室了,感觉一时不便,正要婉拒时想起了老甲,心想老...原创 2018-05-16 23:03:12 · 1419 阅读 · 2 评论 -
错误使用tf-idf的实例分享
作者:一人项目中需要计算两个电视节目的相似程度,有人提出将自然语言处理当中的经典TF-IDF(Item frequency-inverse document frequency)引入作为节目的特征,然后使用余弦距离进行相似度计算。由于TF-IDF的应用领域与电视节目的信息表示不符,因此将其应用于电视节目相似度计算当中是不合适的。本文首先介绍视频语义的表示,接着对于文本语义的TF-IDF进行分析...原创 2018-04-12 23:13:09 · 1551 阅读 · 5 评论 -
基于python3-sklearn,Flask 的回归预测系统
看到一副图片挺有意思,放在片头 序“傍晚小街路面上沁出微雨后的湿润,和煦的西风吹来,抬头看看天边的晚霞,嗯明天又是一个好天气。走到水果摊旁,挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜,一边满心期待着皮薄肉厚瓤甜的爽落感,一边愉快地想着,这学期狠下了工夫,基础概念弄得很清楚,算法作业也是信手拈来,这门课成绩一定差不了!”上面的经验是靠我们人类自身完成的,计算机能帮忙么?机器学习正是这样一门学科,它致力原创 2017-09-27 23:03:37 · 2644 阅读 · 0 评论 -
机器学习规则:ML工程最佳实践----rules_of_ml section 1【翻译】
机器学习规则:ML工程最佳实践本文旨在指引具有机器学习基础知识的工程师等人,更好的从机器学习的实践中收益。介绍一些应用机器学习需要遵循的规则,类似于Google C++ 风格指南等流行的编程指南。如果你已经上过机器学习相关课程或者正在从事相关的工作,那你已经满足阅读本文所需的背景知识了。Before Machine LearningRule: #1: 不要害怕开发没有应用机器学习技术的产品Rul翻译 2017-05-20 00:40:06 · 2496 阅读 · 0 评论 -
机器学习规则:ML工程最佳实践----rules_of_ml section 2【翻译】
作者:黄永刚ML Phase II: 特征工程第一阶段介绍了机器学习的一个周期,为学习系统获取训练数据,通过有趣的引导设计指标,创建一个服务框架。在有了一个完整系统之后,就进入了第一阶段。第二阶段有很多比较容易的东西。任务就是将大量丰富的特征搞进系统中。因此,机器学习的第二阶段就是获取尽可能多的特征并将其有意的组合。第二阶段,所有的指标应该任然在提升。很多东西开始开发,很多工程师将一起花费大量的时间翻译 2017-05-20 00:49:44 · 1687 阅读 · 0 评论 -
机器学习规则:ML工程最佳实践----rule_of_ml section 3【翻译】
作者:黄永刚ML Phase III: 缓慢提升、精细优化、复杂模型第二阶段就已经接近结束了。首先你的月收益开始减少。你开始要在不同的指标之间做出平衡,你会发现有的涨了而有的却降了。事情变得有趣了。获取收益变得更难了,机器学习也已经变得更加复杂了。警告:这一部分比前面有更多的理论虚的东西。我们见过很多团队在机器学习的一二阶段过得还是很愉快的。一旦进入第三阶段,他们就不得不寻找自己的出路了。Rule翻译 2017-05-20 00:58:18 · 1463 阅读 · 0 评论 -
KDD 2011 最佳工业论文中机器学习的实践方法-翻译
作者:黄永刚Practical machine learning tricks from the KDD 2011 best industry paper 原文链接:http://blog.david-andrzejewski.com/machine-learning/practical-machine-learning-tricks-from-the-kdd-2011-best-industr翻译 2017-03-15 22:04:12 · 2240 阅读 · 0 评论 -
CentOS 7 下使用虚拟环境Virtualenv安装Tensorflow cpu版记录
1.首先安装pip-install在使用centos7的软件包管理程序yum安装python-pip的时候会报一下错误:No package python-pip available. Error: Nothing to do 说没有python-pip软件包可以安装。这是因为像centos这类衍生出来的发行版,他们的源有时候内容更新的比较滞后,或者说有时候一些扩展的源根本就没有。所以在使用yu原创 2016-09-04 14:04:07 · 4063 阅读 · 0 评论 -
OpenCV+python 人脸识别
首先给大家推荐一本书:机器学习算法原理与编程实践 本文内容全部转载于书中,相当于一个读书笔记了吧绪论1992年麻省理工学院通过实验对比了基于结构特征的方法与基于模版匹配的方法,发现模版匹配的方法要优于基于特征的方法。以支持向量机为代表的统计学习理论在随后被应用到了人脸识别与确认中去。但是由于算法运行效率问题,很快被一种新的算法替代了。这就是2001年康柏研究院提出的基于简单矩形特征和AdaBo转载 2016-06-23 17:51:55 · 22878 阅读 · 12 评论 -
模式识别: 线性分类器
一、实验目的和要求 目的: 了解线性分类器,对分类器的参数做一定的了解,理解参数设置对算法的影响。 要求: 1. 产生两类样本2. 采用线性分类器生成出两类样本的分类面3. 对比线性分类器的性能,对比参数设置的结果二、实验环境、内容和方法 环境:windows 7,matlab R2010a内容:通过实验,对生成的实验数据样本进行分类。 三、实验基本原创 2014-05-20 10:14:14 · 26947 阅读 · 0 评论 -
【OpenCV学习】Kmean均值聚类对图片进行减色处理
#include #include #include #define MAX_CLUSTERS (8)using namespace std;int main( int argc, char **argv){IplImage *imgA = cvLoadImage( "1.jpg", CV_LOAD_IMAGE_ANYDEPTH | CV_LOAD_IM翻译 2014-12-15 16:06:08 · 3130 阅读 · 0 评论 -
OpenCV手写数字字符识别(基于k近邻算法)
摘要本程序主要参照论文,《基于OpenCV的脱机手写字符识别技术》实现了,对于手写阿拉伯数字的识别工作。识别工作分为三大步骤:预处理,特征提取,分类识别。预处理过程主要找到图像的ROI部分子图像并进行大小的归一化处理,特征提取将图像转化为特征向量,分类识别采用k-近邻分类方法进行分类处理,最后根据分类结果完成识别工作。程序采用Microsoft Visual Studio 2010与Ope翻译 2013-12-03 10:32:53 · 34622 阅读 · 26 评论 -
OpenCV kmeans代码
代码:出处忘了 //// Example 13-1. Using K-means/////* *************** License:************************** Oct. 3, 2008 Right to use this code in any way you want without warrenty, support or any翻译 2014-12-10 16:00:18 · 2920 阅读 · 0 评论 -
OpenCV混合高斯模型函数注释说明
OpenCV混合高斯模型函数注释说明一、cvaux.h#define CV_BGFG_MOG_MAX_NGAUSSIANS 500//高斯背景检测算法的默认参数设置#define CV_BGFG_MOG_BACKGROUND_THRESHOLD 0.7 //高斯分布权重之和阈值#define CV_BGFG_MOG_STD_THRESHOLD转载 2014-08-18 21:29:45 · 4192 阅读 · 0 评论 -
OpenCV OpenGL手写字符识别
Finger.h#ifndef __TOUCHSCREEN_FINGER__#define __TOUCHSCREEN_FINGER__#include #include class Finger{public: Finger() { area = 0.0f; w=h=0; };public: CvPoint center; float area; fl翻译 2014-12-10 16:43:00 · 6850 阅读 · 1 评论 -
AutoML与机器学习领域的理解
作者:一人Featuretools如你所言能够自动完成特征工程,它属于AutoML范畴,接下来我还是主要谈AutoML1吧。由于机器学习应用高门槛和应用范围的广阔,所以很多组织于2017和2018年开始自动化的机器学习尝试,想降低机器学习应用的门槛,让非专业人员也能够应用。机器学习的工作流通常为数据清洗、特征工程、模型选择、模型训练、模型评估,针对机器学习的自动化尝试,也在这几个步骤展开。由...原创 2019-02-18 00:31:49 · 1994 阅读 · 0 评论