惊鸿若梦一书生
人工智能方向硕士和博士。已发表SCI(二区)论文1篇,EI论文4篇,著作1部,并多次获得国家级证书,主持申报并结项三项科研基金项目,累计经费逾50W。中国自动化协会会员,CSDN专栏作家,博文累计阅读量逾120W。
展开
-
Python机器学习019:sklearn中如何找到测试集中预测错误的样本在原数据中所在的索引位置
要查看预测错误的X_test在原始数据集中的索引,你可以首先找到预测错误的样本索引,然后将这些索引映射回原始数据集的索引。原创 2024-03-21 16:13:02 · 187 阅读 · 0 评论 -
Python数据处理048:Python读写pkl文件
Pickle(.pkl)格式是Python特有的一种数据序列化方式。它允许用户将几乎任何Python对象转换为字节流,并将其存储在文件中。之后,可以从这个文件中恢复(反序列化)原来的Python对象。这种格式广泛用于数据持久化和在程序运行间传递对象。原创 2023-12-22 14:25:49 · 870 阅读 · 0 评论 -
Pytorch学习笔记 | GAN生成对抗网络 | 代码 | 生成数据 | 演变规律可视化
这是我们第一次自己生成数据!而且也符合【1,0,1,0】的格式规律!原创 2023-08-02 17:27:35 · 660 阅读 · 0 评论 -
Pytorch学习笔记 | 构建神经网络模型 | 提升效果的优化方法
ELU(Exponential Linear Unit)函数,与ReLU类似,但对于负数输入,返回一个小于0的指数函数。: ReLU(Rectified Linear Unit)函数,将输入映射到大于0的值,小于0的值被映射为0。: Log-Softmax函数,与Softmax函数相似,但返回归一化后的对数概率值。: LeakyReLU函数,与ReLU类似,但对于负数输入,返回一个小于0的斜率。: Sigmoid函数,也称为逻辑函数,将输入映射到0和1之间的连续值。)是可选的,默认为0.01。原创 2023-08-02 15:50:34 · 279 阅读 · 0 评论 -
Pytorch学习笔记 | 利用线性回归实现最简单的梯度下降 | 含代码和数据
梯度下降的基本思想是通过反复迭代来更新参数,使得每次迭代的目标函数值都朝着梯度的负方向下降,直到达到一个接近最小值的点。为了克服梯度下降的某些局限性,还有其他变种的优化算法,如随机梯度下降(SGD)、批量梯度下降(BGD)、小批量梯度下降(Mini-batch SGD)等,它们在实际应用中有不同的优势和特点。梯度下降是一种优化算法,用于最小化(或最大化)函数的值,特别是在机器学习和深度学习中,常用于优化模型的参数,使其能够更好地拟合训练数据。, xn是自变量(特征,用于预测y的值);原创 2023-07-25 22:23:06 · 225 阅读 · 0 评论 -
【科普系列】AI芯片:CPU GPU TPU DPU NPU BPU简介
AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块需要注意:其他非计算任务仍由CPU负责GPU 图形处理器(graphics processing unit,缩写:GPU)FPGA 现场可编程逻辑门阵列(Field Programmable Gate Array,缩写:FPGA)ASIC 专用集成电路(Application Specific Integrated Circuit,缩写:ASIC)所谓的AI芯片,一般是指针对AI算法的ASIC(专用芯片)原创 2022-11-26 11:01:07 · 2783 阅读 · 0 评论 -
Python机器学习018:Python解析配置文件ini文件到字典中(使用自带参数解析模块:configparser)
# -*- coding: utf-8 -*-"""@ModuleName:parser_ini@Function: 解析ini文件到字典中@Author: hupo@Time: 2020/12/31 下午 03:38"""import configparser # Python自带的解析模块def parser_ini(file_path): print("配置文件:\n", file_path) clf = configparser.ConfigParser()原创 2020-12-31 16:29:34 · 460 阅读 · 0 评论 -
Python机器学习017:Python连接数据库、读取数据库、插入数据到数据库(MySQL、oracle、postgres)
"""对数据库进行操作的类功能:数据库连接、查询数据、插入数据、执行sql"""import pandas as pdfrom sqlalchemy import create_engineclass DatabaseOperate: def __init__(self, para): """ 初始化数据库连接 :param para: 字典类型,包含连接数据库所需要的用户名、密码、主机和端口号、数据库名、数据库类型原创 2020-12-31 09:31:06 · 353 阅读 · 2 评论 -
Python机器学习016:pytorch张量与数据类型
标量、向量、矩阵;张量;32位浮点型:torch.float32 / torch.float64位浮点型:torch.float6432位整型:torch.int3216位整型:torch.int1664位整型:torch.int64/ torch.long。原创 2022-10-28 16:33:08 · 430 阅读 · 0 评论 -
Python机器学习015:pytorch快速入门
pytorch实现线性回归,数据集是Income数据集,两列:Education,Income,29行数据原创 2022-10-27 11:06:37 · 1060 阅读 · 0 评论 -
Python机器学习014:kaggle无法注册的解决办法亲测有效
主要用kaggel下载机器学习所用到的数据集,也可以看别人解决机器学习问题的方法和。原创 2022-10-24 17:53:08 · 1166 阅读 · 0 评论 -
Python机器学习013:常用机器学习平台汇总
一个强大且易用的机器学习平台对于开展机器学习研究是非常重要的。好的机器学习框架会提供丰富的组件,可以方便机器学习模型的设计和实现。目前存在以下几类基本的机器学习平台:Caffe2 是面向工业级应用的框架,应用广泛。但是从安装部署角度来说,Caffe2 的用户体验 并不是非常友好,官方文档和教程支持也不是十分充足。而且 Caffe2 只支持 Python 2,这限制了其未来的拓展。MXNet 是一款灵活高效的深度学习框架,并行计算性能好、运行速度快,并且程序节省内存,支持 R、Julia、Python、S原创 2022-07-01 21:49:48 · 1216 阅读 · 0 评论 -
Python机器学习012:当csv格式的数据集太大(GB以上),pd.read_csv读取速度非常慢时,请果断使用h5!!!
(一)HDF与h5HDF(Hierarchical Data Format层次数据格式)是一种设计用于存储和组织大量数据的文件格式,最开始由美国国家超算中心研发, 后来由一个非盈利组织HDF Group支持。HDF支持多种商业及非商业的软件平台,包括MATLAB、Java、Python、R和Julia等等,现在也提供了Spark。其版本包括了HDF4和现在大量用的HDF5。h5是HDF5文件格式的后缀。h5文件对于存储大量数据而言拥有极大的优势,当csv格式的数据集太大(GB以上),pd.rea原创 2021-01-07 10:20:56 · 2992 阅读 · 0 评论 -
Python机器学习011:Python生成KNN分類所需要的數據集
# 导入数据集生成函数from sklearn.datasets import make_blobs# 导入画图工具import matplotlib.pyplot as plt# n_samples:生成样本数为400,centers:分类为4的数据集 ,random_state:随机数种子,让每次生成的数据不发生变化data = make_blobs(n_samples=400, centers=4, random_state=8)X, y = data# 可视化生成的数据plt.sc原创 2020-12-07 09:00:19 · 154 阅读 · 0 评论 -
Python机器学习010:Python实现最简单的三层神经网络
import numpy as npdef sigmoid( x, deriv=False): #求导:derivation if (deriv == True): return x*(1-x) return 1/(1+np.exp(-x))x=np.array([[0,0,1], [0,1,1], [1,0,1...原创 2018-10-22 19:08:36 · 1047 阅读 · 2 评论 -
Python机器学习009:基于加权移动平均的数据扩充办法(Python)
问题背景在做分析建模时,经常会遇到样本稀少的情况,例如上市企业的财报数据,每个季度发布一次,如果一家企业到目前为止上市了三年,那它的实际样本数量也就12条,使用这种如此小数量级的样本量来进行建模会导致模型存在稳定性差、过拟合、泛化能力差等风险。所以有必要对样本进行扩充。对样本进行扩充的方法比较多,譬如根据样本的实际分布使用相关模型进行数据模拟,或者使用Bootstrapping方法对样本进行有放回采样,又或者借鉴缺失值处理的方法对样本进行扩充,等等。在使用深度学习对图片数据集进行训练的时候,为了增加训练原创 2020-06-16 13:53:38 · 1028 阅读 · 0 评论 -
Python机器学习008:安装prophet走过的坑
先安装:PyStanfbprophet依赖于PyStan,所以首先要安装PyStan库。我用的是Anaconda,直接pip install pystan然后安装 :fbprophet这里面就出现坑了,直接说答案:conda update --force conda然后:conda install -c conda-forge fbprophet...原创 2020-05-22 16:09:29 · 3018 阅读 · 0 评论 -
Python机器学习007:Python操作postgres数据库
import psycopg2conn = psycopg2.connect(database="postgres", user="postgres", password="123456", host="1.1.1.1", port="5432")cur = conn.cursor()sql = "CREATE TABLE table_name_2020_08_24 () inherits (table_name)"cur.execute(sql)原创 2020-08-26 08:23:08 · 180 阅读 · 0 评论 -
Python机器学习006:波士顿房价数据集
1、波士顿房价数据集概述机器学习包sklearn中集成了各种各样的数据集,其中就包括波士顿房价数据集(boston_house_prices)是最简单的回归任务数据集之一。该数据集共有506条波士顿房价的数据,每条数据包括14项特征,分别是房屋的13项数值型特征和1项目标特征:房价。此外,该数据中没有缺失的 属性/特征值,更加方便了后续的分析该数据集特征含义如下表:列名说明类型CRIM城镇人均犯罪率floatZN住宅用地超过 25000 sq.ft. 的比例flo原创 2020-06-19 10:16:25 · 6091 阅读 · 0 评论 -
Python机器学习005:鸢尾花数据集
1、鸢尾花数据集概述机器学习包sklearn中集成了各种各样的数据集,其中就包括鸢尾花数据集(Iris)是最简单的分类任务数据集。鸢尾花数据集共有3个分类类别,分别是山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)该数据集共有150个样本,5个变量(4个特征变量,1个类别变量)。iris是鸢尾植物,4个特征分别对应萼片和花瓣的长和宽。如下表:列名说明类型SepalLength花萼长度floatS原创 2020-06-18 09:40:04 · 1710 阅读 · 0 评论 -
Python机器学习004:线形回归案例
import matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets, linear_modelfrom sklearn.metrics import mean_squared_error, r2_score# Load the diabetes datasetdiabetes = datasets....原创 2019-09-01 09:32:37 · 175 阅读 · 0 评论 -
Python机器学习003:13种回归方法的实现代码
# -*- coding: utf-8 -*-"""@ModuleName:multi_regress@Function: @Author: H2017824@Time: 2020/5/25 上午 10:44"""import pandas as pdimport datetimefrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LinearRegressionfro原创 2020-10-27 10:06:05 · 209 阅读 · 0 评论 -
Python机器学习002:哪些机器学习算法不需要做归一化处理
需要归一化的模型:1.基于距离计算的模型:KNN。2.通过梯度下降法求解的模型:线性回归、逻辑回归、支持向量机、神经网络。不需要归一化的模型:1.树模型:决策树、随机森林(Random Forest)树形模型不需要归一化,因为树模型并不关心变量的值,而是关心变量的分布和变量之间的条件概率。其实归一化和标准化主要是为了使计算更方便, 比如两个变量的量纲不同, 可能一个的数值远大于另一个,那么他们同时作为变量的时候 可能会造成数值计算的问题,比如说求矩阵的逆可能很不精确 或者梯度下降法的收敛原创 2020-08-17 11:18:33 · 1612 阅读 · 0 评论 -
Python机器学习001:前言
新的风口——人工智能雷军说过,站在风口,猪都能起飞当你选择站在某个位置时(可以理解为你工作或学习的研究方向),而刚好此时全球刮起了一波浪潮,无论你是才华卓著,还是资质平平,都将被这波浪潮裹挟着冲到浪潮之巅!比个人努力更重要的是借势!而人工智能就是那个“势”。我们都被时代的洪流所裹挟前进,顺势而为是每个平凡的我们想要跨越阶层最好的方法。人生苦短,成功需趁早!stay hungry, stay foolish! 加油!行业的颠覆者人工智能不能超越人类的能力,但随着它能力逐步的逼近人类,就会开始原创 2020-08-04 14:50:48 · 181 阅读 · 1 评论 -
Python机器学习:哪种机器学习算法适合你?| 线性模型 | 逻辑回归 | 最近邻 | 决策树 | SVM | 朴素贝叶斯 | 集成算法 |浅层神经网络 | 深层神经网络
你有数据和应用程序,但应先尝试哪个算法?无论你选择哪个算法,都有好的地方和不好的地方。下面介绍一些选择机器学习算法的基本原则。原创 2023-08-25 15:07:44 · 110 阅读 · 0 评论 -
Python机器学习: sklearn简介 | 基于sklearn的案例代码及解释
scikit-learn是基于Python语言的机器学习库。简单高效的数据分析工具,可在多种环境中重复使用。原创 2023-04-04 20:39:31 · 629 阅读 · 0 评论