自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

跟着大数据和AI去旅行

记录自己的学习过程,如有侵权,请告知

  • 博客(336)
  • 资源 (3)
  • 收藏
  • 关注

原创 【实践指南】scikit-learn与朴素贝叶斯:快速上手

在机器学习的世界里,分类问题是十分常见的任务之一。今天我们将会使用Python中的库来演示如何使用朴素贝叶斯分类器对著名的鸢尾花(Iris)数据集进行分类。

2024-08-24 08:46:53 26

原创 Spark2.x 入门:Apache Kafka 作为 DStream 数据源

注意,上面命令中,"master:9092 wordsender 3 5"是提供给KafkaWordProducer程序的4个输入参数,第1个参数master:9092是Kafka的broker的地址,第2个参数wordsender是topic的名称,我们在KafkaWordCount.scala代码中已经把topic名称写死掉,所以,KafkaWordCount程序只能接收名称为"wordsender"的topic。这个终端窗口就放在这里,不要关闭,千万不要关闭,就让它一直不断发送单词。

2024-08-23 08:24:53 210

原创 【机器学习理论基础】一文看尽朴素贝叶斯算法

在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树, KNN ,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数 Y=f(X)Y=f(X)Y=f(X), 要么是条件分布 P(Y∣X)P(Y|X)P(Y∣X)。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出 YYY 和特征 XXX 的联合分布 P(X,Y)P(X,Y)P(X,Y), 然后用 P(Y∣X)=P(X,Y)/P(X)P(Y|X)=P(X,Y)

2024-08-23 08:23:08 771

原创 Spark2.x 入门:DStream 输出操作

在Spark应用中,外部系统经常需要使用到Spark DStream处理后的数据,因此,需要采用输出操作把DStream的数据输出到数据库或者文件系统中。这里以《Spark2.1.0入门:DStream输出操作》中介绍的NetworkWordCountStateful.scala为基础进行修改。把DStream输出到文本文件中NetworkWordCountStateful.sca

2024-08-22 11:19:15 286

原创 【实战教程】用scikit-learn玩转KNN:鸢尾花数据集的分类之旅

KNN(K-Nearest Neighbors)算法是一种简单直观的监督学习算法,被广泛应用于分类和回归任务中。本文将带你一步步了解如何使用Python中的库实现KNN算法,并通过鸢尾花数据集来进行实战演练。让我们一起探索如何用KNN算法对鸢尾花进行分类吧!

2024-08-22 11:17:40 241

原创 Spark2.x 入门:DStream 转换操作

DStream转换操作包括无状态转换和有状态转换。 无状态转换:每个批次的处理不依赖于之前批次的数据。 有状态转换:当前批次的处理需要使用之前批次的数据或者中间结果。有状态转换包括基于滑动窗口的转换和追踪状态变化的转换(updateStateByKey)。DStream无状态转换操作下面给出一些无状态转换操作的含义:map(func) :对源DStream的每个元素,采用fu

2024-08-20 14:09:12 950

原创 一文读懂KNN算法:寻找你的最近邻居

KNN算法是基于实例的学习方法中最基本的,先介绍基于实例学习的相关概念。

2024-08-20 14:07:49 689

原创 Spark2.x 入门:把 Flume 作为 DStream 数据源

Flume是非常流行的日志采集系统,可以作为DStream的高级数据源。本部分将介绍如何让Flume推送消息给Spark Streaming,Spark Streaming收到消息后进行处理。任务描述把Flume Source设置为netcat类型,从终端上不断给Flume Source发送各种消息,Flume把消息汇集到Sink,这里把Sink类型设置为avro,由Sink把消息推送

2024-08-15 08:28:17 542

原创 广义线性模型(5)Softmax回归

根据文章和我们已经知道,逻辑回归是一种处理二分类问题的常用方法,当需要处理多分类问题是,除了使用 One vs All 策略之外,我们还可以选择使用Softmax回归多分类器。softmax函数又称归一化指数函数,是基于 sigmoid 二分类函数在多分类任务上的推广;

2024-08-15 08:26:59 1335

原创 Spark2.x 入门:套接字流(DStream)

Spark Streaming可以通过Socket端口监听并接收数据,然后进行相应处理。新建NetworkWordCount.scala代码文件,请在该文件中输入如下内容:package org.apache.spark.examples.streamingimport org.apache.spark._import org.apache.spark.streaming._im

2024-08-14 08:34:27 553

原创 多分类实战:一文掌握 One-vs-All 策略

One-vs-All 策略是一种将多类分类问题转化为一系列二分类问题的方法。对于N个类别的分类问题,OvA 方法会构建N个二分类器,每个分类器负责区分一个类别与其他所有类别。构建分类器:对于第k个类别,训练一个二分类模型来识别该类别(正例)与所有其他类别(负例)。预测阶段:当新的数据点到达时,将其输入到所有的N个分类器中,并选择输出分数最高的那个分类器所对应的类别作为最终预测结果。这种方法的优点在于可以利用现有的二分类算法来处理多类分类问题,而不需要对算法本身进行任何修改。

2024-08-14 08:33:01 742

原创 Spark2.x 入门:文件流(DStream)

Spark支持从兼容HDFS API的文件系统中读取数据,创建数据流。为了能够演示文件流的创建,我们需要首先创建一个日志目录,并在里面放置两个模拟的日志文件。请在Linux系统中打开另一个终端,进入Shell命令提示符状态:cd /home/songxitang/spark/mycodemkdir streamingcd streamingmkdir logfilecd log

2024-08-13 08:43:45 707

原创 【机器学习sklearn实战】逻辑回归(Logistic regression)

【代码】【机器学习sklearn实战】逻辑回归(Logistic regression)

2024-08-13 08:33:06 563

原创 机器学习三要素:模型、策略和算法

来体现,损失函数衡量了模型预测值与实际值之间的差距。常见的损失函数包括平方损失、交叉熵损失等。此外,正则化项也经常被加入到损失函数中以防止过拟合,如L1正则化和L2正则化。

2024-08-12 15:15:34 461

原创 广义线性模型(4)逻辑回归(Logistic regression)

从广义线性模型(1)广义线性模型详解中我们知道,逻辑回归是使用logit函数(Sigmod函数)作为连接函数,伯努利分布(二分类问题)或多项式分布(多分类问题)作为概率分布的广义线性模型。逻辑回归,虽然叫做回归,但它却是分类算法,而且是比较重要的有监督的分类算法。Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。寻找危险因素:寻找某一疾病的危险因素等;预测。

2024-08-12 14:37:53 536

原创 【机器学习sklearn实战】岭回归、Lasso回归和弹性网络

定义岭回归模型# 定义LASSO回归模型# 定义弹性网络模型。

2024-08-09 08:41:47 367

原创 广义线性模型(3)岭回归、Lasso回归与弹性网络

岭回归更适合处理多重共线性问题,而不强调特征选择。LASSO回归适用于特征选择,特别是当特征数量很大时。弹性网络则是在特征选择和多重共线性处理之间提供了一个折衷方案。在实际应用中,选择哪种方法取决于具体的数据集特性和目标。通常情况下,我们会尝试不同的模型并使用交叉验证等技术来评估和比较它们的性能,以确定最适合问题的方法。

2024-08-09 08:40:11 891

原创 【机器学习sklearn实战】计算偏差和方差

作为对比,下面是Bagging方法的偏差-方差,可以看出采用Bagging方法可以降低variance。可以很方便的计算Bias-Variance误差分解,下面是回归决策树方法的偏差-方差分解。

2024-08-08 09:23:43 201

原创 【机器学习理论基础】理解偏差、方差和泛化误差的关系

模型的复杂度与方差偏差的变动情况如下图所示,当算法复杂度不够或者是训练程度不足时,学习器的拟合能力不足,偏差主导泛化错误率.随着算法复杂度加深或训练程度加强,学习器的拟合能力逐渐增强,训练数据的扰动逐渐被学习器学习到,此时方差逐步主导了泛化错误率.而我们要做的就是在在偏差和方差之间寻找一个平衡点,即泛化误差最小的点, 达到optimal balance.度量了同样大小的训练集的变动所导致的学习性能的变化,即。1)低偏差,低方差:这是模型的最好结果,一个好的模型会不断去逼近低偏差和低方差这个结果;

2024-08-08 09:22:35 653

原创 【机器学习sklearn实战】线性回归

这段代码首先加载了糖尿病数据集,并将其分为训练集和测试集。然后,创建了一个线性回归模型并用训练集对其进行拟合。最后,它在测试集上预测了目标变量,并计算了均方误差(MSE)和决定系数(R2。),它通常用于回归分析的教学示例。这个数据集包含442个患者的10个生理特征以及一年后疾病级别的量化指标。提供的一个内置的糖尿病数据集 (2),以评估模型的表现。

2024-07-30 16:37:42 354

原创 如何解析字段中包含逗号(,)的csv文件

即,如果一个csv文件不遵从逗号分隔值格式,那它便不是真正的csv文件格式,用wps或者office也无法正确打开。其中,第二个字段"New York, NY"中包含逗号,而csv文件又以逗号作为默认分隔符。面对这种问题,我们无须进行特殊处理,直接使用pandas.read_csv函数进行读取数据即可。我们在进行数据处理时,有时候会碰到字段中包含逗号(,)的csv文件,例如。即当字段本身包含逗号时,CSV 文件通常会用引号(通常是双引号。是一个包含逗号的字段,但由于它被双引号包围,例如上面的样例数据,

2024-07-26 11:09:43 532

原创 【sklearn实战】sklearn 数据集之 Toy datasets

该数据集包含了 150 个鸢尾花的数据,其中每个数据点都有 4 个变量(萼片长度、萼片宽度、花瓣长度、花瓣宽度)和一个目标变量(花的种类)。该数据集最初由 R.A. Fisher 在 1936 年发布。适用于分类任务。这个著名的鸢尾花数据库最初由R.A. Fisher博士使用,数据集来自于他的论文。请注意,这与R中的数据集相同,但与UCI机器学习仓库中的数据集不同,UCI数据集中有两个错误数据点。这可能是图案识别文献中最著名的数据库。Fisher的论文是该领域的经典之作,至今仍经常被引用。

2024-07-26 11:04:45 541

原创 【sklearn实战】datasets数据集简介

scikit-learn 内置的一些小型标准数据集,不需要从某个外部网站下载任何文件,用datasets.load_xx()加载。函数从网络上下载,它们是近年来真实收集的数据,适用于更复杂的机器学习任务。例如,新闻组(20 Newsgroups)数据集,这是一个用于文本分类的大型数据集。在实际应用中,可能需要使用更大规模、更复杂的数据集来训练模型。库可能会更新和添加新的数据集,因此建议查阅最新的官方文档以获取最准确的信息。这些函数可以根据用户指定的参数生成用于分类、回归等任务的数据集。

2024-07-25 16:11:31 753 1

原创 广义线性模型(2)线性回归

本篇主要讨论线性回归的一些基本概念、基本的模型参数求解方法,还有其在广义线性模型体系下的理解方式,下一篇具体讨论下线性回归的一些细节及常用的实现。

2024-07-23 10:19:18 1099

原创 广义线性模型(1)广义线性模型详解

广义线性模型(Generalized Linear Models,GLM)由 Nelder 和 Wedderburn 于 1972年提出和发表 ,旨在解决普通线性回归模型无法处理因变量离散,并发展能够解决非正态因变量的回归建模任务的建模方法。在广义线性模型的框架下,因变量不再要求连续、正态,当然自变量更加没有特殊的要求。能够对正态分布、二项分布、泊松分布、Gamma分布等随机因变量进行建模.通俗来说,广义线性模型是普通线性模型的普遍化,适用性更广、更抽象的线性模型。

2024-07-23 08:32:15 859

原创 【机器学习理论基础】回归模型定义和分类

回归分析是研究自变量与因变量之间数量变化关系的一种分析方法,它主要是通过因变量YYY与影响它的自变量XiX_iXi​之间的回归模型,衡量自变量XiX_iXi​对因变量YYY的影响能力的,进而可以用来预测因变量Y的发展趋势。

2024-07-10 15:26:51 463

原创 【机器学习理论基础】定量变量和定性变量

如年龄变量的取值范围在理论上可以取任意正实数,注意不是正整数,比如一个人的年龄可以记为17.55岁,表示年龄为17岁6个月18天,甚至还可以利用出生时刻的信息精确到更小的时间单位(如“分、秒”)。对于无序分类变量,根据取值的不同又可分为“二项分类变量”和“多项分类变量”,比如性别(一般情况)只分为男女两类,所以称之为二分类,而血型类别较多,可称为多分类。这类有序分类变量给人一种“半定量”的感觉,也称为“等级变量”;与之相对的另一类定性变量,即无序分类变量,其各个取值则不存在程度的差异,比如性别、血型等。

2024-06-11 17:26:03 582

原创 【机器学习】一文看尽 Linear Regression 线性回归

FrancisGalton,英国生物学家,他研究了父母身高与子女身高之间关系后得出,若父母身高高于平均大众身高,则其子女身高倾向于倒退生长,即会比其父母身高矮一些而更接近于大众平均身高。若父母身高小于平均身高,则其子女身高倾向于向上生长,以更接近于大众平均身高。此现象,被Galton称之为回归现象,即regression回归分析是一种统计工具,它利用两个或两个以上变量之间的关系,由一个或几个变量来预测另一个变量。自变量只有一个时,叫做一元线性回归,hxb0b1xhxb0​b1。

2024-05-11 16:17:02 782

原创 全面赶超GPT-4?阿里云发布通义千问2.5,一文带你读懂通义千问

2024年5月9日,阿里云官方在AI智领者峰会中官宣了通义千问2.5版本,并开源了1100亿参数模型。

2024-05-10 10:26:27 1691

原创 AI“源神”启动!Llama 3发布,开闭源之争战局生变

Llama 3的发布,不仅是技术上的一次飞跃,也是开源与闭源之争中的一个关键节点。随着AI技术的不断进步,这一辩论可能会持续下去,而市场和用户的选择将最终决定哪种模式能够占据主导地位。开源与闭源大模型之间不太可能分出绝对的输赢,因为它们各自适合不同的应用和场景。开源大模型更适合那些需要快速创新和大规模协作的项目,而闭源大模型可能更适合那些对性能和安全性有极高要求的商业应用。

2024-05-10 08:59:18 1111

原创 llama3 史上最强开源大模型,赶超GTP-4,逼宫OpenAI

2024年4月18日,Meta公司推出了开源大语言模型Llama系列的最新产品—Llama 3,包含了80亿参数的Llama 3 8B和700亿参数的Llama 3 70B两个版本。

2024-05-06 11:11:29 835

原创 LLaMA 羊驼系大语言模型的前世今生

Llama3作为最新版本,以其逼近 GPT-4 的性能、大规模数据驱动的学习以及高效训练流程,巩固了 Meta 在开源大模型领域的领先地位,并推动了人工智能在社交、商业和其他领域的广泛应用。LLaMA是由Meta AI发布的大语言系列模型,完整的名字是Large Language Model Meta AI,直译:大语言模型元AI。作为该系列的初代模型,Llama 是一个纯粹的基座语言模型,设计目标是提供一个开放且高效的通用语言理解与生成平台。许可的情况下发布了LLaMA的模型权重,供研究人员参考和使用。

2024-05-06 11:06:51 1747

原创 创造未来知识管理新篇章:Ollama与AnythingLLM联手打造个人与企业的安全知识库!

Ollama是一个开源的大型语言模型服务工具,它帮助用户快速在本地运行大模型。通过简单的安装指令,用户可以执行一条命令就在本地运行开源大型语言模型,如Llama 2。Ollama极大地简化了在Docker容器内部署和管理LLM的过程,使得用户能够快速地在本地运行大型语言模型。打造个性化聊天机器人:用Ollama和Open WebUI搭建你的私有ChatGPT!windows 下 docker compose 安装 ollama 和 open-webui ,打造私有GPT。

2024-04-30 10:50:06 1561

原创 loss.sum().backward()中对于sum()的理解

PyTorch backward() 进行梯度计算时,只能对标量进行梯度计算。.sum() 函数主要有两个作用,一个是用来求和,一个是用来降维。在深度学习中,损失函数都是标量,所以一般情况下可以直接调用backward()就可以了。

2024-04-30 10:39:22 611

原创 windows 下 docker compose 安装 ollama 和 open-webui ,打造私有GPT

通过上述步骤,你可以在Windows系统上使用Docker Compose轻松安装和配置Ollama和Open-WebUI,打造属于自己的私有GPT环境。这不仅可以帮助你更好地理解GPT模型的工作原理,还可以为你的个人项目或研究提供强大的支持。

2024-04-16 16:19:26 2474 6

原创 Latex 玩转数学公式

Latex玩转数学公式

2024-04-10 09:27:41 889

原创 打造个性化聊天机器人:用Ollama和Open WebUI搭建你的私有ChatGPT!

用Ollama和Open WebUI搭建你的私有ChatGPT!

2024-04-10 09:08:09 2870

原创 入门级深度学习主机组装过程

大小,最用在 RTX3060 12G显存和RTX 4060 16G显存 之间进行了选择。最后买了RTX 4060 16G显存的显卡。显卡大小:显卡有1风扇、2风扇和3风扇之分,风扇越多散热性能越好,但是我的电脑是itx 小机箱,最后买了个2风扇的显卡。除了显卡和电源,其他硬件都是公司电脑原装。买显卡时,都会写建议电源功率。有钱直接上 RTX4090,也不能复用公司的电脑,其他配置跟不上。担心散热问题,换了个好点的风扇。后来发现还不如不换,太能折腾了。进行深度学习,除了看算力外,还需要看。

2024-04-03 06:46:30 486

原创 史上最强 PyTorch 2.2 GPU 版最新安装教程

史上最强 PyTorch 2.2 GPU 版最新安装教程

2024-04-03 06:36:37 2583 2

原创 Jupyter开启远程服务器(最新版)

Jupyter Notebook 在本地进行访问时比较简单,直接在cmd命令行下输入 jupyter notebook 即可,然而notebook的作用不止于此,还可以用于远程连接服务器,这样如果你有一台服务器内存很大,但是呢你又不喜欢在linux上进行操作、编辑代码时你就可以在本地windows上使用notebook远程到服务器上,在本地写代码,使用服务器上的资源。

2024-03-28 14:07:41 611

mybatis 全xml配置

IDEA下使用meavn进行mybatis全xml配置进行开发,对应的博客为: https://blog.csdn.net/u011026329/article/details/80835186

2018-06-27

基于Smack4.1.x需要的额外第三方jar包

当使用Smack4.1.x连接openfire服务器时,需要的额外的第三方jar包

2016-01-26

Fragmeng回退栈小例子

通过实例演示Fragment回退栈的机制

2015-08-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除