go语言机器学习分类之逻辑回归与k-NN

最新推荐文章于 2024-05-16 11:02:00 发布

YYJNY

最新推荐文章于 2024-05-16 11:02:00 发布

阅读量584

点赞数

分类专栏：机器学习 go语言机器学习

本文链接：https://blog.csdn.net/sdadaaagfsee3/article/details/107636397

版权

go语言机器学习同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

机器学习

6 篇文章 0 订阅

订阅专栏

分类
5.1分类模型述语
类别、标签、种类：预测的各种不同的选择
二元分类：从两个种类或类别选取一种例如是/否欺诈
多元分类：两个以上的类别中选取一种
标记数据或者注释数据：真实世界的观察记录、或者是相应类别的配对记录
5.2逻辑回归
逻辑回归的函数包github.com/xlvector/hector github.com/cdipaolo/goml github.com/sjwhitworth/golearn
逻辑函数 f(x) = 1 / 1 + e^-x (指数形式)

用比值比的对数的方法来推测A和B的发生的概率

import (
	"image/color"
	"log"
	"math"

	"gonum.org/v1/plot/vg"

	"gonum.org/v1/plot/plotter"

	"gonum.org/v1/plot"
)

func logistic(x float64) float64 {

	return 1 / (1 + math.Exp(-x))
}
func main() {

	p, err := plot.New()
	if err != nil {
		log.Fatal(err)
	}
	p.Title.Text = "Logistic Function"
	p.X.Label.Text = "x"
	p.Y.Label.Text = "y"

	// 创建曲线函数
	logisticfunc := plotter.NewFunction(func(x float64) float64 { return logistic(x) })
	logisticfunc.Color = color.RGBA{B: 255, A: 255}
	p.Add(logisticfunc)
	p.X.Max = 10
	p.X.Min = -10
	p.Y.Min = -0.1
	p.Y.Max = 1.1

	if err := p.Save(4*vg.Inch, 4*vg.Inch, "logistic.png"); err != nil {
		log.Fatal(err)
	}
}

逻辑回归的假设和陷阱
	比值的对数程线性关系 ： 逻辑回归潜在的假设是可以构建比值比对数的线性模型
	因变量的编码
	观察的独立性：数据中的每个x示例都应该保持独立即避免相同的实例被包含多次
	常见的陷阱：
	逻辑回归对异常值更加敏感
	逻辑回归的指数标准从未到达0.0后者1.0 因此评估评估标准不太可能退化
	解决分类问题应当首先考虑

	代码示例
	书p101-106

5.3 k-最近邻
github上有很多go语言的机器学习包
rikonor/go-ann akreal/knn cdipaolo/goml

Knn：根据类似的记录对记录进行分类，不会有复杂的参数和选项
	分类新点的操作：
		1.找到距离新点的k个最近点(相似度量)
		2.确定这个k个最近的邻居中有多少是a类有多少是b类
		3.将这个新的点分类为k个最近邻域中的主导类
相似度量：欧几里得距离、曼哈顿距离、Minkowski距离、余弦相似度、jaccard相似度  优先选取欧几里得距离

陷阱：
	k-NN属于惰性假设
	k可以随意选择 常用搜索k值的范围 k是在测试集上进行评估的
	k-NN没有考虑哪些特征相对于其他特征更重要

示例 使用之前的鸢尾花做示例

	import (
	"fmt"
	"log"
	"math"

	"github.com/sjwhitworth/golearn/evaluation"

	"github.com/sjwhitworth/golearn/knn"

	"github.com/sjwhitworth/golearn/base"
)

func main() {
	// 将数据处理为内部格式istance
	irisdata, err := base.ParseCSVToInstances("D:/gocode/iris.csv", true)
	if err != nil {
		log.Fatal(err)
	}

	// 进行交叉验证 5次交叉
	knn := knn.NewKnnClassifier("euclidean", "linear", 2)

	cv, err := evaluation.GenerateCrossFoldValidationConfusionMatrices(irisdata, knn, 5)
	if err != nil {
		log.Fatal(err)
	}
	// 输出准确度
	mean, Variance := evaluation.GetCrossValidatedMetric(cv, evaluation.GetAccuracy)
	stdev := math.Sqrt(Variance)
	fmt.Printf("\naiiurancy\n%0.2f(+/-%.f)\n\n", mean, stdev*2)
}