分类
5.1分类模型述语
类别、标签、种类:预测的各种不同的选择
二元分类:从两个种类或类别选取一种 例如是/否欺诈
多元分类:两个以上的类别中选取一种
标记数据或者注释数据:真实世界的观察记录、或者是相应类别的配对记录
5.2逻辑回归
逻辑回归的函数包github.com/xlvector/hector github.com/cdipaolo/goml github.com/sjwhitworth/golearn
逻辑函数 f(x) = 1 / 1 + e^-x (指数形式)
用比值比的对数的方法来推测A和B的发生的概率
import (
"image/color"
"log"
"math"
"gonum.org/v1/plot/vg"
"gonum.org/v1/plot/plotter"
"gonum.org/v1/plot"
)
func logistic(x float64) float64 {
return 1 / (1 + math.Exp(-x))
}
func main() {
p, err := plot.New()
if err != nil {
log.Fatal(err)
}
p.Title.Text = "Logistic Function"
p.X.Label.Text = "x"
p.Y.Label.Text = "y"
// 创建曲线函数
logisticfunc := plotter.NewFunction(func(x float64) float64 { return logistic(x) })
logisticfunc.Color = color.RGBA{B: 255, A: 255}
p.Add(logisticfunc)
p.X.Max = 10
p.X.Min = -10
p.Y.Min = -0.1
p.Y.Max = 1.1
if err := p.Save(4*vg.Inch, 4*vg.Inch, "logistic.png"); err != nil {
log.Fatal(err)
}
}
逻辑回归的假设和陷阱
比值的对数程线性关系 : 逻辑回归潜在的假设是可以构建比值比对数的线性模型
因变量的编码
观察的独立性:数据中的每个x示例都应该保持独立即避免相同的实例被包含多次
常见的陷阱:
逻辑回归对异常值更加敏感
逻辑回归的指数标准从未到达0.0后者1.0 因此评估评估标准不太可能退化
解决分类问题应当首先考虑
代码示例
书p101-106
5.3 k-最近邻
github上有很多go语言的机器学习包
rikonor/go-ann akreal/knn cdipaolo/goml
Knn:根据类似的记录对记录进行分类,不会有复杂的参数和选项
分类新点的操作:
1.找到距离新点的k个最近点(相似度量)
2.确定这个k个最近的邻居中有多少是a类有多少是b类
3.将这个新的点分类为k个最近邻域中的主导类
相似度量:欧几里得距离、曼哈顿距离、Minkowski距离、余弦相似度、jaccard相似度 优先选取欧几里得距离
陷阱:
k-NN属于惰性假设
k可以随意选择 常用搜索k值的范围 k是在测试集上进行评估的
k-NN没有考虑哪些特征相对于其他特征更重要
示例 使用之前的鸢尾花做示例
import (
"fmt"
"log"
"math"
"github.com/sjwhitworth/golearn/evaluation"
"github.com/sjwhitworth/golearn/knn"
"github.com/sjwhitworth/golearn/base"
)
func main() {
// 将数据处理为内部格式istance
irisdata, err := base.ParseCSVToInstances("D:/gocode/iris.csv", true)
if err != nil {
log.Fatal(err)
}
// 进行交叉验证 5次交叉
knn := knn.NewKnnClassifier("euclidean", "linear", 2)
cv, err := evaluation.GenerateCrossFoldValidationConfusionMatrices(irisdata, knn, 5)
if err != nil {
log.Fatal(err)
}
// 输出准确度
mean, Variance := evaluation.GetCrossValidatedMetric(cv, evaluation.GetAccuracy)
stdev := math.Sqrt(Variance)
fmt.Printf("\naiiurancy\n%0.2f(+/-%.f)\n\n", mean, stdev*2)
}
遇到代码编译问题可以私信我