自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 机器学习_KNN

【1】KNN——k-nearest-neighbor——k近邻【2】核心思想:如果一个样本在特征空间中的k个最相邻的样本大都属于某一个类别,则该样本也属于这个类别

2017-11-30 19:50:47 125

原创 逗比日记_森田疗法

顺其自然,为所当为:控制可以控制的东西;接纳不能控制的。森田疗法认为烦恼是一种自然的感情,我们应该接受它,否则就会引起内心的激烈冲突,令人疲惫不堪。不用下决心:去做就行。推荐《自觉和领悟之路》

2017-11-28 17:11:20 1517

原创 机器学习_链接分析-pageRank

【1】pageRank 是链接的思想:         如果一个网页的入链越多,别的网页引用他越多,它越重要。         一个重要的网页链接到一个其他网页,那么被链接到的网页也就越重要。【2】web有向图:把网页当成点,如果存在网页间的链接,那么这两点存在一条有向边。【3】web转移矩阵W:P129,如果节点i有k条出链,则每一条出链的权值为1/k,非出链的权值为0。(实际的

2017-11-27 21:38:04 342

原创 机器学习_初识神经网络

【1】神经网络最重要的用途:分类???特征选择??【2】神经元:从多个感受器(??暂时理解为特征)接受电信号,进行处理(在直线哪一侧),发出电信号,这就是叫神经元的原因。【3】普通的二分类可以一刀切,但是复杂的呢?所以这里就需要多层神经网络。【4】神经网络的训练依靠反向传播算法:最开始输入层输入特征向量。网络层层计算获得输出,输出层发现输出的和正确的信号不一样。然后就会调整参数,层层返

2017-11-25 15:28:32 208

原创 机器学习_正则化问题/损失函数

【1】正则化分为两项:

2017-11-24 11:19:43 294

原创 机器学习_矩阵的l21范数/行稀疏/结构稀疏

【1】公式:【2】理解:公式中n为行数,t为列数。也就是当行n=1,对整个行向量求了l2范数。                    所以l21范数的理解是行向量的l2范数之和【3】正则化项的作用:使每一行的l2范数尽可能小,行内出现尽可能多的0元素,尽可能稀疏,也称为行稀疏。【4】行稀疏、列稀疏统称结构化稀疏。

2017-11-21 22:27:00 10596

转载 机器学习_谱聚类

【1】http://blog.csdn.net/betarun/article/details/51154003【2】聚类确实是将相似的样本归为一类,使同类样本相似度尽可能高,异类的相似性尽可能低。【3】如何衡量相似度呢?常用的就是:欧式距离/余弦.....

2017-11-21 21:08:17 230

原创 机器学习_Titanic: Machine Learning from Disaster

【1】特征缺失怎么补【2】不能比大小的数,上车地点怎么处理【3】不同的分类型所要求的数据类型条件是不同的,像svm是最小距离,贝叶斯需要估计概率密度函数【4】可以考虑分类器之间的集成

2017-11-21 19:10:33 191

原创 机器学习_非参数估计

【1】非参数估计与参数估计不同:未对函数形式作出假设,直接从训练样本中估计出密度。【2】最简单的非参数估计:直方图 理解:直方图如果达到细化,就是概率密度函数。  2.1 简单理解一下公式:在x点发生的概率=(收集器区域内样本数/总的样本数)/收集器的宽度缺点:但是是离散的而且和收集器的起始位置有关(收集器的位置一变,落入区域的样本点个数就会发生变化)【3】将直方图进行推广

2017-11-21 17:00:23 4925

原创 数据挖掘_频繁项集/关联规则

【1】数据挖掘和机器学习的区别:         数据挖掘应该数据量很大,需要考虑内存方面:内存速度快,但是容量小。而如果内存放不下,只能放到硬盘里,那样处理会很慢。所以数据挖掘的目的是让算法动起来。         机器学习则忽略内存,单纯的从公式和模型出发。【2】频繁项集和关联规则:理解:无论频繁项集还是关联规则其实都是为了探索项与项之间的共振关系。(项与项之间有关联,会同时出现)

2017-11-20 20:04:38 3015

原创 机器学习_TF-IDF

【1】本算法的目的是从文档中找出主题词,来对文档进行分类。见大数据书P6。【2】有点像文档的特征选取,选出文档中最具有代表性的词。【3】理解:第一:主题词确实会在文档中重复出现,但并不是最频繁的。(语气词、停顿词最频繁)                    第二:一篇文档的主题词在其他文档中几乎不会出现。【4】所以挑选主题词,对词语在一篇文档的打分的公式为:         ...

2017-11-17 10:30:06 196

原创 机器学习_bag of words/word2vec

Bagofwords模型,也叫做“词袋”.在信息检索中,Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,文本中每个词的出现都是独立的,不依赖于其他词是否出现。

2017-11-11 21:41:36 1125

原创 机器学习_马尔科夫模型

【1】参考:http://blog.csdn.net/pipisorry/article/details/46618991【2】确定性模型:每一个状态都依赖于前一个状态。比如说红灯-黄灯-绿灯。是有顺序的【3】非确定性模型:马尔科夫假设:假设模型的当前状态仅仅依赖于前面几个状态。一个马尔科夫过程是状态间的转移仅依赖于前n个状态的过程。这个过程被称之为n阶马尔科夫模型。非确定性原因是

2017-11-10 19:37:38 294

原创 数据挖掘_推荐系统

【1】推荐系统和搜索引擎很类似。都用到了相似性算法。【2】主要原理是:1.基于内容的推荐  2.基于用户的推荐  3.??【3】映射?用户*物品 来打分吗?

2017-11-10 11:07:37 444

原创 数据挖掘_相似项的发现

【1】与问题角度不同。把物体看成一个整体比如:距离/余弦等等。现在把物体拆分,就可以用集合去考虑相似度。比如jaccard相似度。【2】定义        集合s和集合t的jaccard相似度为:|S∩T|/|S∪T|【3】现在我们把目标放在文档上面,如何将文档拆分呢?引入shingle        k-shingle:文档看做字符串,k的意思是任意个长度为k的字符串。eg.字符

2017-11-08 20:57:52 341

原创 逗比日记_参考的小习惯

【1】自律即自由【2】坚持早起【3】早起喝一杯温水【4】泡芝麻糊和薏仁粉喝【5】每月读一些书【6】每天晚上用足盐泡脚【7】定期断舍离【8】遇到问题先思考十分钟。第一分钟平定情绪。三分钟理清头绪,反思事情发生的顺序。接着确定目的权衡利弊

2017-11-08 18:56:08 853

原创 机器学习_全概率公式

理解:可以从韦恩图去理解P(B)=P(B|A)P(A)+P(B|A')P(A')=P(AB)+P(A'B)

2017-11-07 22:02:43 365

原创 数据挖掘_基于jaccard的相似度算法

1.这是一个基于集合的相似度度量,eg文本、两个顾客购买的物品。与之前余弦值、距离不太一样!

2017-11-07 21:44:52 1576

原创 机器学习_参数估计/贝叶斯(已知解析式求参数)

【1】必要性:已知概率密度函数形式,用样本来估计参数。【2】最大似然估计: 1.理论:现在已经拿到了很多个样本,那么我们要找一个参数,使这些样本发生的可能性最大。这些样本已经产生了,所以找到的这个参数应当最有利于这些样本的产生。 2.似然函数:实质就是概率函数,含有参数而样本点已经带入的函数。详情见下面。 http://blog.cs...

2017-11-07 16:34:27 1624

原创 逗比日记_如何恢复身体

【1】保证睡眠。理解:保证的是深度睡眠,早上的低效睡眠可以省去。【2】充足营养。水果和蔬菜的摄入,保证菜种类的多样【3】坚持适当锻炼哦,很有效【4】健身的书:囚徒健身1n 2 说实话,动作少废话多,但是可以给自己洗脑【5】打坐,冥想。推荐自控力

2017-11-05 21:57:36 212

原创 机器学习_on similarity preserving feature selection

abstract:[1]notice that criteria  select feature that preserve sample similarity,and can be united under a common framework.

2017-11-05 21:10:00 237

原创 编程语言_matlab自定义函数与代数方程求解

【0】matlab有很多种自定义函数的方法,不同定义函数方法对应有不同的用途,一一讲解【1】函数文件,function文件【2】函数文件内,定义多个子函数。但是注意子函数只允许主函数和子函数相互调用。换句话说与外界的接口只有主函数一个【3】inline  eg:f=inline(‘x^2+y’,’x’,’y’);z=f(2,3)Ans=7【4】匿名函数句柄。。。

2017-11-01 18:54:54 3281

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除