机器学习
文章平均质量分 56
anualday
这个作者很懒,什么都没留下…
展开
-
机器学习--主题模型&检测劣质答案
一、主题研究1、潜在狄利克雷分配sklearn 不支持潜在狄利克雷分配,可以使用python中的genism包2、稀疏性当你有一个很大的矩阵或者向量的时候,基本上大多数的值都是0,因此,在任何时候,只有一小部分数据时相关的。3、选择主题个数主题模型通常是一个面向目标的终端服务,在这种情况下,你具体选择了哪些参数并不总是很重要,不同的主题数或者参数值会得到效果几乎相同的系统。原创 2015-12-24 12:55:56 · 1340 阅读 · 0 评论 -
机器学习工具安装(python)
最近在看MIT的机器学习公开课,打算动手写点代码。按照网上教程装了python,以及几个库。http://blog.csdn.net/qrlhl/article/details/48978107这个网友总结得特别好,因为他遇到的问题我也都遇到了。唯一区别是原文中“”“解决了pyparsing,我们继续运行:import matplotlib ,这时一般不会报错了。如果有报错,看原创 2015-12-03 19:46:59 · 665 阅读 · 1 评论 -
机器学习简单算法整理
今天整理了一下简单的机器学习算法。打算按照这个提纲学习代码实现,不一定按顺序,但希望自己每学习一个都能了解透彻。打算寒假前就仔细研究这块了。一、Regression(回归)Ordinary Least Squares普通最小二乘法Logistic Regression逻辑回归Stepwise Regression逐步回归Multivariate Adaptive Regressio原创 2015-12-10 12:42:29 · 800 阅读 · 0 评论 -
机器学习-KNN 算法
K-Nearest Neighbour 一、主要目的 在样本空间中,找到与待估计的样本最临近的K个邻居,用这几个邻居的类别来估计待测样本的类别二、适用性 样本容量比较大的类域的自动分类,而样本容量较小的类域则容易误分。尤其适用于样本分类边界不规则的情况三、不足1、当样本不平衡时,比如一个类的样本容量很大,其他类的样本容量很小,输入一个样本的时原创 2015-12-10 12:56:02 · 757 阅读 · 0 评论 -
机器学习--梯度下降法
一、梯度的概念梯度与方向导数的关系为:梯度的方向与取得最大方向导数值的方向一致,而梯度的模就是函数在该点的方向导数的最大值。二、梯度下降法的流程1、初始化:随机选取取值范围内的任意数2、循环操作: 计算梯度; 修改新的变量; 判断是否达到终止:如果前后两次的函数值差的绝对值小于阈值,则跳出循环;否则继续;原创 2015-12-14 10:13:55 · 483 阅读 · 0 评论 -
机器学习--K-means算法(聚类,无监督学习)
一、基本思想 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。比如上面的星星,聚类后结果是一个个星团,星团里面的点相互距离比较近,星团间的星星距离就比较远了。二、算法步原创 2015-12-15 10:35:45 · 6639 阅读 · 0 评论 -
机器学习--岭回归与偏最小二乘
一、回归回归就是数据进行曲线拟合,回归一般用来做预测,涵盖线性回归(经典最小二乘法)、局部加权线性回归、岭回归和逐步线性回归。二、一般线性回归遇到的问题在处理复杂的数据的回归问题时,普通的线性回归会遇到一些问题,主要表现在:预测精度:这里要处理好这样一对为题,即样本的数量和特征的数量时,最小二乘回归会有较小的方差时,容易产生过拟合时,最小二乘原创 2015-12-16 10:19:45 · 3479 阅读 · 0 评论 -
机器学习--应用:评估帖子相关性
一工具:python4.3,Scikit learn库,nltk(自然语言处理工具包),参考资料:《机器学习系统设计》二步骤:1、 将原始文本转化为词袋:统计词语个数,并把词频转化为向量。from sklearn.feature_extraction.text import CountVectorizer注意点:1)打开文件:os.path.join()连接两个文件名地址的时候原创 2015-12-18 15:00:25 · 676 阅读 · 1 评论 -
机器学习--贝叶斯分类器
一、最简单的来讲,利用贝叶斯变换公式的分类算法就是贝叶斯分类器。先验概率和后验概率公式:二、朴素贝叶斯分类器1、思想:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。2、算法流程 第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分原创 2015-12-21 14:47:37 · 847 阅读 · 0 评论 -
机器学习--决策树
一、决策树构建的基本步骤:1. 开始,所有记录看作一个节点2. 遍历每个变量的每一种分割方式,找到最好的分割点3. 分割成两个节点N1和N24. 对N1和N2分别继续执行2-3步,直到每个节点足够“纯”为止二、纯度计算方法如果记录被分为n类,每一类的比例P(i)=第i类的数目/总数目。Gini不纯度熵(Entropy)错误率上面的三个原创 2015-12-22 13:20:14 · 460 阅读 · 0 评论 -
机器学习--支持向量机
找到一篇特别完整的文章,就看这个了。。。http://blog.csdn.net/v_july_v/article/details/7624837原创 2015-12-23 12:15:16 · 319 阅读 · 0 评论