![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 86
釉色清风
切忌好高骛远,要有时间有耐心沉淀自己的知识。
从零开始,从简单到复杂。
你不需要很厉害才开始,但是你需要开始才会很厉害。加油加油!
(欢迎一起交流学习吖:+q:1961460852)
展开
-
【机器学习】从线性回归模型看一个简单的成本函数
为了构建一个不会随着训练集大小而自动变大的成本函数,我们将计算平均平方误差而不是总平均误差,我们采用对每一个训练示例的误差求和再平均。但是如上,这样的误差可能是正、也可能是负,在数学中,衡量整体而非单个的误差,我们都要计算误差的绝对值或者平方(一般都是平方)。这条直线,在视觉上,我们看起来是相符的,但是这粗略的判断或者大概的估计,是不严谨的,我们并不能通过“视觉观察”来寻求。而对于我们的数据集,和我们定下的线性回归模型,我们需要选择。的值,以便我们的得到的函数f可以更好地拟合我们的数据。原创 2024-03-10 20:26:11 · 1093 阅读 · 0 评论 -
【机器学习】线性回归模型(Linear Regression)
因为价格是连续的数字,所以是回归问题。首先,在前面讲到,我们将采用线性回归模型来进行房屋价格的预测,在这个例子中,更准确地说是一个一元线性回归线性模型,因为我们的输入只有一个输入特征。我们根据我们得到的每一组数据(包括房屋的大小和房屋的价格)读入,在这里,为了更快了解监督学习的过程,我们用图表在直观理解。现在,假如你是一名房地产经纪人,若有一位客户想要卖掉她的房子,根据她的房屋的大小,你能预测出相对应的合理的价格吗?此时,若你的客户的房屋的大小是1250平方英尺,则可以根据我们的模型,而预估出房屋的价格。原创 2024-02-28 22:18:00 · 1136 阅读 · 6 评论 -
【机器学习】三要素——数据、模型、算法
机器学习,就是算法通过在数据上进行运算产生模型。原创 2024-02-28 09:49:44 · 1014 阅读 · 1 评论 -
【机器学习】简单认识无监督学习
无监督学习,就像是一本后面没有标准答案的习题册,无法知道自己正确与否,只能在做题过程中,大致得出相似类型题,更多靠自己摸索。** 在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签,我们需要据此拟合一个假设函数。聚类经常应用在手机新闻中,比较典型的是一些聚合新闻网站,利用爬虫爬取新闻后对新闻进行分类的问题。对于不同的个体,根据不同的基因片段,我们可以运行聚类算法,将个体分组到不同的类别中。某种共性特征或者结构。原创 2024-02-27 08:30:06 · 1073 阅读 · 3 评论 -
【机器学习】简单认识监督学习
监督学习算法其实就是x到y的一种映射,也可以说是输入到输出的一种映射。监督学习算法主要分为两类,回归算法和分类算法。回归算法其实就是预测坐标轴的可能区间的无限个数。而分类算法预测结果就是坐标轴上的点。原创 2023-12-03 10:31:14 · 1276 阅读 · 4 评论 -
【Yellowbrick】特征可视化分析
Yellowbrick是一个用于可视化机器学习模型和评估性能的Python库。它提供了一系列高级可视化工具,帮助数据科学家和机器学习从业者更好地理解、调试和优化他们的模型。它在scikit-learn的api基础上做了扩展,能让我们更容易的驾驭模型优化阶段。来评估特征分布的正态性。检测两个特征之间的相关性。检测两个特征之间的相关性。原创 2023-09-04 21:45:08 · 293 阅读 · 2 评论 -
【机器学习7】特征缩放
但对许多机器学习算法,尤其是梯度下降类型的算法,标准化更加实用,因为许多线性模型,如逻辑回归和支持向量机,将权重初始化为0或者接近0的随机数。标准化将特征列的中心值设置为0,标准差设置为1,这样,特征列的参数与标准正态分布(零均值和单位方差)的参数相同,从而使模型更容易学习权重。同样,要注意的是,只能训练数据拟合StandardScaler类,再用拟合后的参数转换测试数据集或任何新的数据样本,这一点非常重要。然而,应该强调,标准化不会改变特征列的分布形状,也不会将非正态分布的特征列转换为正态分布。原创 2023-08-24 15:01:57 · 660 阅读 · 9 评论 -
【机器学习6】数据预处理(三)——处理类别数据(有序数据和标称数据)
下面,我们将color特征转换为三个新特征:blue、green和blue。然后使用二进制来表示颜色。例如,可以编码blue=1,green=0,red=0.在上面代码中,仅将OneHotEncoder应用于一个列X[:,0],如果想要有选择地变换数组中的某些列,可以使用ColumnTransformer方法。可以看到,分类器将blue转换为0,green转换为1,red转换为2。原创 2023-08-17 13:25:07 · 1374 阅读 · 22 评论 -
【机器学习5】数据处理(二)Pandas:表格处理
inplace=False,默认该删除操作不改变原数据,而是返回一个执行删除操作后的新DataFrame。inplace=True,则会直接在原数据上进行删除操作,且删除后无法返回。:是指企业在一段时间内购进产品的价值总和,该值越高说明企业的生产和经营规模就越大,可以作为衡量企业生产规模大小的有效指标。😭😭😭😭**由于我拼接表格,添加新的一列,没有成功。我希望根据sheet2算出这个指标,然后添加到sheet1中。参数说明:axis默认为0,指删除行,axis=1,指删除列。,不然会改变企业代号的排序。原创 2023-08-15 14:09:10 · 878 阅读 · 20 评论 -
【机器学习4】构建良好的训练数据集——数据预处理(一)处理缺失值及异常值
如果我们将表格数据的前几行打印,若有空缺值,输出端会显示出NaN(代表“非数字”),计算机一般无法处理这些缺失值。在这14列中,第一列是类别(即葡萄酒有三种不同的类别,用数字0、1、2进行表示),2-14列都是葡萄酒的特征。还有一种实现缺失值插补的方法。异常值,指的是样本中的一些数值明显偏离其余数值的样本点,所以也称为离群点。如果异常值非常多时,则可能需要进行填补设置,同处理缺失值一样,我们可以用平均值,中位数,众数等来填补。常用的一种插值方法是均值插补,均值插补是使用整个特征列的均值替换缺失值。原创 2023-08-13 01:36:01 · 2266 阅读 · 16 评论 -
【机器学习3】鸢尾花数据集可视化,让枯燥的数据颜值爆表!
加窗平滑。原创 2023-08-07 23:24:42 · 3816 阅读 · 17 评论 -
【机器学习2】什么是Jupyter notebook & 新手使用Jupter notebook
Jupyter notebook于我来说,最方便的一点是,可以边写代码边运行,一方面,但运行出现错误时可以直接缩小自己的检查范围,很直观找出自己的错误。还有很棒的一点是,Jupyter notebook它可以将代码、文档集中在一处,一目了然,还可以加一些叙述性的文字等等,最后看起来很连贯。用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。接下来,进入命令模式,单元框就会变为蓝色。同时,这也会关闭所有在运行中的notebook,所以要注意保存。此时,当输入代码时,单元框就是绿色的。原创 2023-08-07 02:03:07 · 1107 阅读 · 8 评论 -
【机器学习1】什么是机器学习&机器学习的重要性
通过分析和挖掘海量数据,机器学习算法可以自动提取出数据中的模式和规律,并利用这些信息进行预测和决策。这种自动化的过程比传统的人工决策更为高效、准确和可靠,因此具有极大的价值和学习意义。不同于人类通过分析大量数据手动推导规则和模型,机器学习提供了一种更有效的方法来获取数据中的知识,以逐步提高模型的预测性能,做出数据启动的决策。机器学习可以帮助企业更好地理解用户的需求和行为,通过对客户数据的分析,机器学习可以帮助企业发现客户购买的。同时,机器学习能够评估医疗数据的可靠性,提高医疗数据的准确性。原创 2023-08-06 17:36:59 · 610 阅读 · 1 评论