人工智能
文章平均质量分 73
程人之美
这个作者很懒,什么都没留下…
展开
-
朴素贝叶斯算法-C++实现+拉普拉斯平滑+算法优化
分类与回归原创 2016-10-23 18:23:47 · 2969 阅读 · 0 评论 -
机器学习-分类算法-逻辑回归
什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同。如果是连续的,就是多重线性回归;如果是二项分布,就是Logistic回归;如果是Poisson分布,就转载 2016-11-20 00:12:10 · 585 阅读 · 0 评论 -
数据挖掘-决策树ID3分类算法的C++实现
数据挖掘课上面老师介绍了下决策树ID3算法,我抽空余时间把这个算法用C++实现了一遍。决策树算法是非常常用的分类算法,是逼近离散目标函数的方法,学习得到的函数以决策树的形式表示。其基本思路是不断选取产生信息增益最大的属性来划分样例集和,构造决策树。信息增益定义为结点与其子结点的信息熵之差。信息熵是香农提出的,用于描述信息不纯度(不稳定性),其计算公式是Pi为子集合中不同性(而二元分类即正样例和负样例转载 2016-11-15 23:01:26 · 1782 阅读 · 0 评论 -
分类算法之感知器学习算法PLA 和口袋算法Pocket Algorithm
我们有一堆数据,默认他们是线性可分的。 定义f为这个数据分割线的最优解,但是我们不知道他的值。 我们仅有一个函数集H,这个函数一般是无穷大的。我们的目的就是从H中找出一条线g来尽可能的接近f。但是,我刚刚说了,H内的函数一般是无穷多的,我们不可能吧H中的函数一一比较,得到最好的分割线g吧!!!不过伟大的科学家就说,我们的目的不就是找出一条线把这些数据都分开吗!!那我随机的初始化一条分割线 g0(转载 2016-10-28 17:05:03 · 6598 阅读 · 1 评论 -
文本数据集的读写和简单处理
·文本文件的处理,包括文件的读写操作,需要用到字符串切割方法来从数据集中获取目的数据以进行数据处理。·one-hot矩阵,目的是使用一个向量表示一篇文章中哪些词汇出现过,响亮的长度为词汇表的大小,1表示存在,0表示不存在。·TF矩阵,termfrequency,即每一个单词在训练文本中出现的次数与训练文本的总词数的比值,也就是对向量中的每个值归一化后的频率。·IDF矩阵,inverse原创 2016-10-15 18:06:02 · 18375 阅读 · 1 评论 -
KNN分类与回归-C++实现
KNN分类:夹角余弦#include #include #include #include #include #include #include #include #include #include #include using namespace std;struct train_data { int index; //训练文本序号 int e原创 2016-10-15 18:00:16 · 1190 阅读 · 0 评论 -
余弦距离、欧氏距离和杰卡德相似性度量的对比分析
1、余弦距离余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。余弦定理描述了三角形中任何一个夹角和三个边的关系。给定三角形的三条边,可以使用余弦定理求出三角形各个角的角度。假定三角形的三条边为转载 2016-10-15 00:20:32 · 840 阅读 · 0 评论 -
各种距离算法汇总
1. 欧氏距离,最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x = (x1,…,xn) 和 y = (y1,…,yn) 之间的距离为:(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:(3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,转载 2016-10-15 00:17:03 · 2059 阅读 · 0 评论 -
分类算法之KNN
一、算法概述1、kNN算法又称为k近邻分类(k-nearest neighbor classification)算法。最简单平凡的分类器也许是那种死记硬背式的分类器,记住所有的训练数据,对于新的数据则直接和训练数据匹配,如果存在相同属性的训练数据,则直接用它的分类来作为新数据的分类。这种方式有一个明显的缺点,那就是很可能无法找到完全匹配的训练记录。kNN算法则是从训练集中找到和新数据最接近的k条转载 2016-10-15 00:06:18 · 496 阅读 · 0 评论 -
分类算法之朴素贝叶斯分类
0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决转载 2016-10-14 01:12:20 · 733 阅读 · 0 评论 -
机器学习-对线性回归、逻辑回归、各种回归的概念学习
回归问题的条件/前提:1) 收集的数据2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据。1. 线性回归假设 特征 和 结果 都满足线性。即不大于一次方。这个是针对 收集的数据而言。收集的数据中,每一个分量,就可以看做一个特征数据。每个特征至少对应一个未知的参数。这样就形成了一个线性模型函数,向量表示形式:这个就是一个组转载 2016-11-20 00:13:54 · 4746 阅读 · 0 评论