大数据与机器学习
文章平均质量分 86
lilong117194
“The world is not made of strings , but is made of things.”
展开
-
回归分析
回归简单来说就是由结果得到原因,是一种归纳的思想,当看到大量的事实所呈现的样态,推断出原因是如何的;当看到大量数字对是某种样态时,推断出它们之间蕴含的关系是如何的。1. 最小二乘法线性回归利用回归分析来确定两种或两种以上变量之间相互依赖的定量关系的一种统计分析方法。表达式: y=ax+b+ey=ax+b+e ee为服从均值为0的正太分布。注意:它不是一个定值,它和y,xy,x对应着出现。示例:原创 2017-12-05 12:30:49 · 589 阅读 · 0 评论 -
推荐算法基础
推荐系统核心要解决的问题是提高转化率,也就是经过分析,要猜测某一个用户更喜欢什么。1. 最简单的方法来做推荐贝叶斯分类:通过统计用户所有购买的物品的分布特性,统计该用户购买物品的分布情况。利用搜索记录:比如广告位的JavaScript代码可以读取浏览器的本地Cookies(通常可以用来存储浏览器上的表单信息、用户名、搜索关键字等信息)和当前页面的文本信息,并做相应的关键词提取,最后原创 2018-01-06 21:18:12 · 681 阅读 · 0 评论 -
遗传算法求解背包问题
笔记1. Python enumerate() 函数:enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。enumerate(sequence, [start=0]):sequence – 一个序列、迭代器或其他支持迭代对象。start – 下标起始位置。返回 enumera原创 2017-12-26 21:03:28 · 27704 阅读 · 10 评论 -
关联分析的基本概念
关联分析也是人的一种认知模式,这种关联规则和人的反射类似,就是在认识事物的过程中在认知中建立的关联规则。关联分析是数据挖掘里很重要的部分。1. 频繁模式例如一个超市每天有很多的购物记录,而且消费者的购买单品的顺序是无序的,所以一个无序的组合就是“模式”。在这些模式里有的出现频率低,有的出现频率高,一般说频率较高的通常更有指导意义,这种高频率的模式就叫做“频繁模式”。2. 支持度和置信度刚说了频繁模式原创 2018-01-04 13:39:53 · 3181 阅读 · 1 评论 -
聚类实例
1. 有趣模式在数据挖掘和机器学习中,一次就算会产生大量的“模式”,所谓模式可以理解为一种数据规律。 如果一个模式具备以下的特点,那么它就是有趣的易于被人理解在某种确信度上,对于新的或检验数据是有效的是潜在有用的(具有一定的实际意义)是新颖的2. 层次聚类层次聚类与人类的“自底而上”的认识事物的过程是一样的。 从思考的角度来看有两种思路:一种是“凝聚的层次聚类方法”,一种是“分裂的层次原创 2017-12-05 18:54:46 · 11385 阅读 · 0 评论 -
朴素贝叶斯—疾病的预测
1. 朴素贝叶斯理论基础贝叶斯决策理论方法时统计模型决策中的一个基本方法,基本思想如下: (1)已知类条件概率密度参数表达式和先验概率 (2)利用贝叶斯公式转换成后验概率 (3)根据后验概率大小进行决策分类 其实就是利用统计中的“条件概率”来进行分类的一种算法。古典概型的概率计算方法是穷举出所有的情况,然后看看每种情况的占比,这都是基于排列组合的方式去做的概率分析。而朴素贝叶斯分类用的是条件原创 2018-01-03 19:58:46 · 7467 阅读 · 2 评论 -
维特比算法—打字输入预测
这里首先说下隐马尔可夫模型的相关知识。1. 隐马尔可夫模型(HMM)在说隐马尔可夫模型前还有一个概念叫做“马尔科夫链”,既是在给定当前知识或信息的情况下,观察对象过去的历史状态对于预测将来是无关的。也可以说在观察一个系统变化的时候,他的下一个状态如何的概率只需要观察和统计当前的状态即可正确得出。隐马尔可夫链和贝叶斯网络的模型思维有些接近,区别在于隐马尔可夫的模型更为简化。而且隐马尔可夫链是一个双重的原创 2018-01-03 17:01:46 · 2830 阅读 · 0 评论 -
SVM的升维解决线性不可分
很多的情况下样本是线性不可分的,这时可以通过升维的方法来解决。假设在数轴上给出一些数据,其中[-2,2]区间内的点被标记为分类1,其余的被标记为分类0,这时用一个分段函数是不能顺利的分类的,这时可以构造一个函数,让其在[-2,2]的区间内这个函数大于0,而其他的部分小于0,例如: f(x)={10−x2+4>0−x2+4⩽0f(x)=\left\{\begin{matrix}1 & -x^2+4原创 2018-01-03 11:23:50 · 6476 阅读 · 0 评论 -
遗传算法求解极大值问题
首先参考下上篇博客:遗传算法求解背包问题1. 极大值问题假设有一个函数z=ysin(x)+xcos(y)z=ysin(x)+xcos(y),图形如下:这时要求这个函数在x位于[-10,10]和y位于[-10,10]之间的最大值。这时想象这是个地形图,且这个地区无规律的放置很多人,有的在谷底,有的在半山腰,下面让他们一代代生生不息的繁殖下去,凡是能爬的更高的就留下,按照这个思路走下去就有了遗传算法的应原创 2018-01-01 16:20:26 · 4457 阅读 · 0 评论 -
K-Means聚类中国城市
聚类是一种学习方法,即把物理或抽象对象的集合分组为由彼此类似的对象组成的多个类的分析过程。K-Means是基于向量距离来做聚类的 算法步骤:从n个向量对象任意选择k个向量作为初始聚类中心根据步骤1中的设置的k个向量(中心对象向量),计算每个对象与这k个中心对象各自的距离。对于步骤2中的计算,任意一个向量与这k个向量都有一个距离,把这个向量和距离它最近的中心向量对象归到一个类簇中。重新计算每原创 2017-12-05 13:23:34 · 4889 阅读 · 0 评论 -
Rocchio算法—文本分类
文本表示:其实就是文本的向量化问题。 向量空间模型的思想是把文档简化为特征项的权重为分量的向量表示,其中选取词作为特征项,权重用词频表示。 其主要用的是TF-IDF算法来计算:TF(词频)是一个词语出现的次数除以该文件的总词语数。IDF(文件频率)的方法是测定有多少文件出现过某个词,然后除以文件集里的文件数。注意这里IDF用的是逆向文件频率,即假如“汽车”一词在100份文件中出现过,总文件数是原创 2018-01-06 16:17:59 · 9909 阅读 · 0 评论