- 博客(25)
- 资源 (253)
- 收藏
- 关注
原创 hadoop初级班(四)
这一节来介绍hadoop中的数据库hbase他是一个列式数据库,根据行健来进行查询,有时间戳,所以根据时间查很方便。比如删除或更新这种操作,是加入一个删除的记号,某个行键某个时刻被删除了,这主要是因为他是基于HDFS的,HDFS对于修改来说是很麻烦的,所以hbase采用了新建一个文件这种奇怪的方式。hbase的安装:采用伪分布模式:1.下载及解压hbase的安装包(tar包,安
2015-05-27 15:42:56 831
转载 微博背后的那些算法
转载自http://www.infoq.com/cn/articles/the-algorithm-behind-weibo引言微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作:原创、转发、回复、阅读、关注、@等。其中,前四个是针对短博文,最后的关注和@则针对的是用户之间的关系,关注某个人就意味着你成为他的粉丝,而他成为你的好友;@某个人意味着你想要他看到
2015-05-26 14:19:39 909
原创 Andrew NG机器学习课程笔记(七)
最优间隔分类器回想前面我们提到我们的目标是寻找一个超平面,使得离超平面比较近的点能有更大的间距。也就是我们不考虑所有的点都必须远离超平面,我们关心求得的超平面能够让所有点中离它最近的点具有最大间距。形象的说,我们将上面的图看作是一张纸,我们要找一条折线,按照这条折线折叠后,离折线最近的点的间距比其他折线都要大。形式化表示为: 这里用||w||=1规约w,使得wTx+b是几何
2015-05-25 14:28:15 887
转载 无约束最优化方法——牛顿法、拟牛顿法、BFGS、LBFGS
转自http://blog.csdn.net/lansatiankongxxc/article/details/45873597这是前一段时间写的博客,然后又重新整理了一下最速下降法牛顿法拟牛顿法SR1BFGSDFPLBFGS【最速下降法】无约束最优化方法不涉及约束条件,所以都是介绍如何寻找搜索方向以及搜索步长。 无约束最优化问题的目标函
2015-05-25 14:17:17 2529
原创 hadoop初级班(二)
详细解读wordcount程序本次内容将详细介绍wordcount程序:word count 源代码:package ustc.hilab.wordcount;import java.io.exception;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import
2015-05-22 16:04:36 1000 1
原创 hadoop初级班(三)
本教程主要参考hadoop实战在一个全配置的集群上,运行hadoop意味着在网络分布的不同服务器上运行一组守护进程。这些守护进程有特殊的角色,一些仅存在与单个服务器上,一些则运行在多个服务器上,他们包括:NameNode(名字节点)、DataNode(数据节点)、Secondary NameNode(次名字节点)、JobTracker(作业跟踪节点)、TaskTracker(任务跟踪节点)
2015-05-22 15:24:22 888
原创 hadoop初级班(一)
hadoop的部署1.Linux安装(1)如果你的电脑操作系统是Windows7或Windows8的话,请先安装一个Ubuntu系统。安装办法:下载自己可以快速下载的Ubuntu的镜像,我的用的是Ubuntu12.04,来源于中科大自己的http://mirrors.ustc.edu.cn/,下载下来后建个文件夹,将下载的ISO文件拖入,然后解压,解压完成后如图所示双击wubi.exe
2015-05-22 08:39:21 1471
原创 KNN算法及其实现
K邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者
2015-05-20 21:29:45 1259
原创 Andrew NG机器学习课程笔记(六)
支持向量机(1)1.这一节Andrew老师回顾了上一节的朴素贝叶斯,然后提了下神经网络,接着就是重头戏支持向量机了。支持向量机是一种二分类模型,他的基本模型时定义在特征空间上的间隔最大的线性分类器,间隔最大使他有别于感知机,支持向量机还包括核技巧,这使他成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题。支持向量机的学习算法是求解凸二次
2015-05-20 20:33:06 1031
原创 Andrew NG 机器学习课程笔记(五)
生成学习算法本次课Andrew老师主要讲述了生成学习算法的定义,并详细描述了高斯判别分析的例子。之后对比了生成学习算法和判别学习算法的不同,介绍了一个适合对文本分类的算法,朴素贝叶斯。并借此介绍了一种平滑技术——拉普拉斯平滑。生成学习算法的定义:这里借用李航博士《统计学习方法》中的一段话生成方法由数据学习联合概率分布P(x,y),然后求出条件概率分布P(Y|X)作为
2015-05-16 23:08:59 1418
翻译 深度学习将替代机器学习并淘汰它们吗?
原文链接:http://www.kdnuggets.com/2014/10/deep-learning-make-machine-learning-algorithms-obsolete.html第一次翻译英文文章,水平有限,如有缺失,敬请指正!中文译文:深度学习将代替机器学习并淘汰它们吗,在简单问题上深度学习是不是显得太复杂了呢?我们就这个
2015-05-16 09:09:52 6435
转载 大数据分析:机器学习算法实现的演化
转载自并发编程网 – ifeve.com http://ifeve.com/bigdataanalyticsbeyondhadoop_evolutionofmlrealizaton/大数据分析:机器学习算法实现的演化本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》我将会对机器学习算法的不同的实现范式进行讲解,既有来自文献中的
2015-05-15 23:41:05 2112
转载 论战Yann LeCun:谁能解释极限学习机(ELM)牛X在哪里?
论战Yann LeCun:谁能解释极限学习机(ELM)牛X在哪里?Yann LeCun、黄广斌、David_Wang2015转载自http://www.csdn.net/article/2015-05-07/2824636 被认为学习速度快、泛化性能好的Extreme Learning Machine(ELM,极限学习机),在国内颇有市场,但大神Yann LeCun近日质
2015-05-15 23:29:33 2848
原创 Andrew NG 机器学习课程笔记(四)
牛顿法以及广义线性模型 1.牛顿法 之前使用的解最大似然估计的方法是梯度上升法,本节课讲了牛顿法,这使得结果能够迅速收敛NG老师上来从求解f(theta)=0这个方程开始讲起,如果想找到零点,我们可以采取下面的策略: 如上图所示,蓝色的曲线是f(theta),横坐标是theta,纵坐标是f(theta),1这个点处对应的X是theta的初值(自己赋的
2015-05-13 19:45:59 1172
原创 HashMap实现原理
1.HashMap的数据结构 数组的特点是:寻址容易,插入和删除困难;而链表的特点是:寻址困难,插入和删除容易。那么我们能不能综合两者的特性,做出一种寻址容易,插入删除也容易的数据结构?答案是肯定的,这就是我们要提起的哈希表,哈希表有多种不同的实现方法,我接下来解释的是最常用的一种方法—— 拉链法,我们可以理解为“链表的数组” ,如图: 从上图我们可以发现哈希表是由数组
2015-05-13 15:19:40 527
原创 计算广告学(二)
本系列文章主要参考刘鹏老师的计算广告学课程-------------------------------------------------------------------------------------------------------------------在线广告的核心计算问题和挑战广告中的计算问题可以概括为下面的公式(Find the be
2015-05-12 22:01:13 4994
转载 应用scikit-learn做文本分类
文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢!嗯,说正文。20newsgroups官网上给出了3个数据集,这里我们用最原始的20news-19997.tar.gz。分为以下
2015-05-12 21:51:47 1207
转载 Python进阶(三)——Python语法
近几年来,随着Google、YouTube、IRobot等大公司对Python语言的广泛使用,Python公司的身影经常出现与我们的视线,Python语言也在软件质量、开发效率、程序的可移植性、标准库的支持等方面成为了一个优秀的程序开发语言,可以完成网站、游戏开发到航空航天控制等领域的各种任务。本栏目希望通过学习《Python学习手册》和网站上的相关指导,从零学习Python,希望对大家有一些帮助
2015-05-12 21:50:45 629
转载 Python进阶(二)——Python对象类型
近几年来,随着Google、YouTube、IRobot等大公司对Python语言的广泛使用,Python公司的身影经常出现与我们的视线,Python语言也在软件质量、开发效率、程序的可移植性、标准库的支持等方面成为了一个优秀的程序开发语言,可以完成网站、游戏开发到航空航天控制等领域的各种任务。本栏目希望通过学习《Python学习手册》和网站上的相关指导,从零学习Python,希望对大家有一些帮助
2015-05-12 21:46:53 893
原创 Andrew NG 机器学习课程笔记(三)
欠拟合与过拟合、局部加权回归、logistic回归 1.欠拟合与过拟合当假设空间含有不同复杂度(例如,不同的参数个数)的模型时,就要面临模型选择的问题,我们希望选择或学习一个合适的模型。如果在假设空间中存在“真模型”,那么选择的模型应该逼近真模型。具体的,所选择的模型要与真模型的参数个数相同,所选择的模型的参数向量与真模型的参数向量相近。如果一味的追求提高对训练数据的预测能力
2015-05-12 20:35:41 1713 4
原创 计算广告学(一)
本系列文章主要参考刘鹏老师的计算广告学课程-------------------------------------------------------------------------------------------------------------------******************************************************1.
2015-05-12 18:05:26 2180
转载 Python进阶(一)——安装Python、程序执行、Python模块和IDLE调试
近几年来,随着Google、YouTube、IRobot等大公司对Python语言的广泛使用,Python公司的身影经常出现与我们的视线,Python语言也在软件质量、开发效率、程序的可移植性、标准库的支持等方面成为了一个优秀的程序开发语言,可以完成网站、游戏开发到航空航天控制等领域的各种任务。本栏目希望通过学习《Python学习手册》和网站上的相关指导,从零学习Python,希望对大家有一些帮助
2015-05-11 23:35:45 1456
原创 Andrew NG 机器学习课程笔记(二)
监督学习应用——线性回归、批梯度下降、随机梯度下降、标准方程推导 Andrew 首先从第一课提到的房子的大小和房价的数据入手介绍监督学习的应用,可以以一条直线去拟合这些数据,然后对于未知价格的房子,就可以带入这条直线的方程得到价格的预估。这里介绍了在机器学习算法中常用的几种表示符号,X代表输入,Y代表输出,m代表样本的个数,就代表了第i个样本的输入和输出。
2015-05-11 15:59:25 1391 1
原创 Andrew NG 机器学习课程笔记(一)
机器学习的动机与应用题记: 之前看过Andrew Ng的机器学习课程,但没有系统的整理与归纳,现在感觉有些东西遗忘了,于是准备每天花一些时间重温一下同时争取每天整理一节课的笔记,由于很多内容是自己理解或者在网上寻找各种资料得出的结论,难免有不足之处,还望读者指正。 今天是母亲节,祝天下的妈妈们节日快乐!祝自己的母亲天天开心,儿子会尽快领着儿
2015-05-10 20:33:49 1545
转载 机器学习常见分类算法汇总
机器学习常见算法分类汇总转载自http://blog.csdn.net/cuifengqinghan/article/details/35612997机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算
2015-05-10 14:55:34 1340
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人