esfuerzos-CSDN博客

原创线性回归和逻辑回归总结

使用误差平方和来作为目标函数，因为假定随机误差服从高斯分布训练集的似然函数为两边取对数后得到对数似然函数想让对数似然函数最大，就是让红框内的值最小，红框内是最小二乘因此将最小二乘视为目标函数。在参数更新中，根据这个目标函数的梯度来进行梯度下降计算。通过在目标函数后加正则项来避免过拟合，SGD和BGD的区别是SGD每次随机使用一个训练样本进行参数的迭代，BGD每次使用所有的训练样本进行迭代，当训练集很大时，BGD训练一次的速度很慢。逻辑回归是二分类算法，将线性回归的值带入sigmoid函数，跟

2021-12-22 18:02:53 145

原创逻辑回归与k-means

逻辑回归逻辑回归是以线性回归作为输入，通过sigmoid函数进行二分类的分类算法。输出【0.1】的概率值，默认0.5作为阈值。逻辑回归与线性回归的原理相同，但由于是分类问题，损失函数不同，只能通过梯度下降求解。损失函数：损失函数的值越小，那么预测类别的准确度越高。逻辑回归的API:sklearn.linear_modle.LogisticRegression(penalty = ‘l2’,C=1.0)k-meansk-means是非监督学习。1、随机设置K个特征空间内的点作为初始的聚类中心

2021-10-28 20:07:24 423

原创线性回归；欠拟合和过拟合

线性回归定义：线性回归通过一个或者多个自变量与因变量之间之间进行建模的回归分析。其中特点为一个或多个称为回归系数的模型参数的线性组合。线性回归的误差大小通过损失函数来计算–最小二乘法，目的是去寻找最小损失对应的权重值。计算最佳权重的两种方法：1.正规方程 w =(XTX-1)XTY：缺点是当特征过于复杂时，求解速度太慢2.梯度下降适用于训练数据规模十分庞大的任务正规方程API：sklearn.linear_model.LinearRegression梯度下降API：sklearn.lin

2021-10-24 10:17:30 3648

原创决策树和随机森林

决策树决策树的分支思想运用了if-then结构。决策树的划分运用了信息论中信息熵的概念，信息熵的计算公式如下：决策树的划分依据之一-信息增益特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差，即公式为：信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。常见决策树使用方法：ID3:信息增益最大化原则C4.5：信息增益比最大化原则CART：回归树：平方误差最小，分类树：基尼系数最小原则基尼系数公式：sk

2021-10-23 15:26:35 95

原创机器学习基础-KNN和朴素贝叶斯

KNN算法定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中计算的是欧式距离。KNN算法API：sklearn.neighbors.KNeighborsClassifier(n_neighbors =5,algorithm = ‘auto’)def knn(): knn = KNeighborsClassifier(n_neighbors=6) data = pd.read_csv('./train.cs

2021-10-22 15:13:54 514

原创特征工程,数据集处理

特征降维低方差过滤方差低的特征，可能没有分类的价值。API：VarianceThreshold进行低方差特征过滤。from sklearn.feature_selection import VarianceThresholddef VT(): #将方差低于阈值的特征进行过滤 Vt = VarianceThreshold(threshold= 0) data = Vt.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]]) prin

2021-10-19 22:57:48 216

原创机器学习算法基础--特征工程

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的模型准确性。特征提取sklearn中特征抽取的API是sklearn.feature_extraction。字典特征提取对字典数据进行特征抽取API是sklearn.feature_extraction.DictVectorizer。流程：实例化后，调用fit_transform 方法输入数据并进行转化。from sklearn.feature_extraction import DictVectorize

2021-10-19 10:21:09 119

原创数据分析项目总结

数据分析项目总结股票分析人口数据分析美国大选用户数据分析股票分析import pandas as pdimport tushare as tsimport matplotlib.pyplot as plt#获取某值股票的历史行情#code是股票代码df = ts.get_k_data(code='600519',start= '2000-09-01')#将互联网中数据存储到本地df.to_csv('./maotai.csv')#使用to_xxx将 df中的数据写到本地进行存储#将本地

2021-10-17 15:13:38 601

esfuerzos的博客