曹文杰1519030112-CSDN博客

原创 claude3 真的产生自己的意识了吗

先给个个人观点，肯定是胡说八道。人工智能的能力边界在于计算机的能力边界，计算机没有思想和意识，同理人工智能也没有。人工智能所谓的意识是数据赋予它的不是它自主的东西。计算机只能解决数学问题中的一小部分，同理人工智能也是，如果人工智能这么强大，那么大家的密码早就失效了，目前还没有听说仅仅靠人工智能自己就能把银行卡密码破译的消息，大家还是要警惕用人工智能炒作和做坏事的人。

2024-03-11 18:23:58 187

通常来说一段视频的数据量直接拿神经网络训练可能难度太大，需要类似卷积这种操作进行权重共享，然后把原始视频压缩到一个 patches 这种样子，这一部分相当于编码器，然后对应的可以训练一个解码器把视频还原回来。openai 可能还考虑了时间和空间维度的注意力机制，其实视频只要生成关键帧就行，中间内容可以根据差分获得，这样有了生成关键帧的技术，再加上某种补全帧和帧之间差别的动画算法，应该可以做到生成视频。sora 应该还有文字输入功能，把文字信息传递给模型，然后扩写，然后生成关键帧。

2024-03-11 17:11:37 497

原创 kaggle房价预测比赛——数据下载及比赛介绍

kaggle 房价预测比赛系列第一节

2023-01-29 17:24:38 1049

原创 scikit-learn 线性回归 LinearRegression 参数详解

scikit-learn 线性回归 LinearRegression 参数详解

2023-01-08 17:06:08 10788 1

原创 scikit-learn 普通最小二乘法

scikit-learn 最小二乘法

2023-01-08 16:31:58 828

原创 scikit-learn线性模型之线性回归

scikit-learn 线性模型线性回归

2023-01-03 20:11:41 858 2

原创应用统计专业学习指南

应用统计专业学习指南

2022-08-06 19:26:54 618

原创 Linux 操作系统简介

Linux 操作系统简介（1）简介（2）使用 Linux 的优点(3) 推荐课程（1）简介Linux 是一款免费开源的操作系统，第一版本内核由 Linus Benedict Torvalds 开发。目前有非常多的发行版本，包括 Debian、Ubuntu、RHEL、Centos、Slackware 等。作为开发人员或者算法人员，我们非常有必要掌握 Linux 操作系统的操作。我目前使用的发行版本是 Ubuntu 。（2）使用 Linux 的优点2.1 Linux 具有很好的社区，开发过程中许多问题都

2021-12-12 10:17:09 290

原创机器学习能干什么？

机器学习能干什么？数据挖掘无法具体编程的事务推荐系统参考数据挖掘1、用于网页点击流数据的分析2、医疗记录的分析3、生物数据，例如DNA等的分析4、工程领域的大量数据无法具体编程的事务1、直升机自动驾驶2、手写字体识别3、自然语言处理4、图像识别推荐系统1、亚马逊，淘宝等推荐商品2、爱奇艺等推荐视频参考【吴恩达的机器学习课程】https://www.bilibili.com/video/BV164411b7dx?p=1...

2020-12-27 21:17:20 852

原创 2020_10_16朋友聊天之闲谈

闲谈上周末去松江见了一个非常要好的兄弟，他对我说了一句话令我印象深刻，其实我们都是性格有缺陷的人。这句话如果读高中的时候说出来，其实还有装的成分，但是对于现在的我们来说，我们是深刻的意识到，我们的性格是有缺陷的。对于我来说，一个明显的缺点就是不善于与人沟通，不善于人际交往，总是沉醉于教科书中。从那天起我就发了一个大愿，每周找一个过去的朋友，同学，老师或者亲戚，一起聊个天，既是了解信息，也是对自己的一种训练。聊天过程中有这么几句话给我留下了深刻的印象1、有人说上海留不住人才，可能事实上是上海从不缺乏人才

2020-10-06 21:23:40 340

原创【深度之眼】吴恩达《机器学习》作业——week1代价函数1

代价函数1视频链接：https://www.bilibili.com/video/BV164411b7dx?p=7首先回顾一下，我们的线性模型其次是我们的模型参数 θ0,θ1\theta_0,\theta_1θ0,θ1然后是我们的损失函数我们的优化目标是，选择合适的模型参数 θ0,θ1\theta_0,\theta_1θ0,θ1使得我们的代价函数达到最小。我们现在将问题简化一下，假设我们现在只有参数 θ1\theta_1θ1 也就是说我们的 θ0=0\theta_0=0θ0=0

2020-09-01 11:13:09 349 1

原创 2020_8_31闲谈——应用统计专业考研建议

应用统计专业考研建议考研1、确定考应用统计专硕的同学，需要确定目标院校。我们这届立信的同学报考的学校有，北京大学，华东师范大学，暨南大学，西南财经大学，浙江工商大学，上海财经大学，上海对外经贸大学，上海师范大学等。对于不同的学校，难度不同，华师大这种学校，如果卷子简单初试一般要考到420以上才有把握可以进去。关于院校选择我给不了太多建议，大家需要根据自身情况进行选择。2、到相关学校的研究生院官网，查找信息，上面会可能有往届的录取分数，招生简章跟专业目录。还有可能找到专业课的参考教材，甚至往年真题。需

2020-08-31 15:50:55 1685

原创【深度之眼】吴恩达《机器学习》作业——week1代价函数

代价函数首先回顾一下我们之前提到的训练集，及线性回归假设：其中 θ0,θ1\theta_0,\theta_1θ0,θ1 是我们要选择的参数。我们希望我们的模型，或者说我们拟合的曲线，能够接近训练集的真实状况，即我们的预测值和真实至之间的差距要越小越好。也就是说要选择合适的 θ0,θ1\theta_0,\theta_1θ0,θ1，最小化 hθ(x(i)−y(i))2h_\theta(x^{(i)}-y^{(i)})^2hθ(x(i)−y(i))2...

2020-08-30 20:11:00 281

原创 2020_8_29 闲谈——应用统计学专业学习规划及指南

闲谈有人说 2020 年是过去 10 年最糟糕的一年，却是未来 10 年最好的一年。这当然是一句玩笑话了。2020 年很多人不容易，有的人失去了自己的亲人，有些人失去了自己的工作。不管怎么样生活还要继续。前不久，立信20级的一位应用统计新生找到我，问我有没有什么建议，我给他做了详细的解答，最近突然想起来之前答应王立庆老师为数学和统计专业提出点意见，那我就借CSDN这个平台来谈谈我的建议。基础没错作为一个数学或统计的大一新生，首先需要做的就是打好基础，所谓基础不牢地动山摇，基础的重要性人尽皆知，可是真正

2020-08-29 20:49:28 3478 1

原创 python机器学习——xgboost使用

xgboost使用首先需要安装xgboost,详见安装。本文以“泰坦尼克号沉船事故”数据集为例，对比随机决策森林以及XGBoost 模型对泰坦尼克上的乘客是否生还的预测能力：# 导入 pandas 用于数据分析import pandas as pd# 利用 pandas 的 read_csv 模块直接从互联网收集泰坦尼克号乘客数据（通过 URL 地址来下载 Titanic 数据）titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wik

2020-08-28 09:27:31 493

原创 python机器学习——xgboost简介

xgboost简介（1）背景（2）什么是 XGBoost（3）为什么要用 XGBoost（4）XGBoost 相比传统 gbdt 有何不同？xgboost为什么快？xgboost如何支持并行？参考（1）背景Boosting 分类器属于集成学习模型，它基本思想是把成百上千个分类准确率较低的树模型组合起来，成为一个准确率很高的模型。这个模型会不断地迭代，每次迭代就生成一颗新的树。对于如何在每一步生成合理的树，大家提出了很多的方法，我们这里简要介绍由 Friedman 提出的 Gradient Boostin

2020-08-28 09:01:27 1254

原创 python机器学习——网格搜索实现

网格搜索实现本文我们依然使用波士顿房价数据作为案例，进行分析。下面是使用默认参数的随机森林模型的效果# 从 sklearn.datasets 导入波士顿房价数据读取器。from sklearn.datasets import load_boston# 从读取房价数据存储在变量 boston 中。boston = load_boston()# 从sklearn.cross_validation 导入数据分割器。from sklearn.model_selection import train

2020-08-27 09:33:11 3396

原创 pip 安装库及换源

pip 安装库本文介绍的是通过windows系统安装 python 库。第一步 win+R打开运行，输入cmd或者直接开始搜索cmd这样我们就打开了命令提示符pip安装包只要输入 pip install 安装包名例如我们要安装 xgboost但是这样子直接回车安装速度会很慢，所以我们需要换源，也就是使用清华镜像pip install xgboost -i https://pypi.tuna.tsinghua.edu.cn/simple...

2020-08-27 09:08:19 618

原创 python机器学习——超参数网格搜索

网格搜索理论（1）参数与超参数参数是由模型从数据中学习得到的。如回归中各自变量前的系数。超参数：所谓超参数，就是机器学习模型里面的框架参数，比如聚类方法的类别的个数，随机森林生成树的个数。它们跟训练过程中学习的参数（权重）是不一样的，通常是手工设定几个取值，然后通过不断试错调整，对一系列穷举出来的参数组合一通枚举（叫做网格搜索）。【例】① SVR 需要事先决定核心函数（ kernel function ）的类型，若选择不当，则得不到良好的预测结果；sklearn.svm.SVC(C=1.0, k

2020-08-26 10:38:22 2131

原创 python机器学习—— 模型评估

模型评估我们发现了仅仅使用默认配置的模型与不经处理的数据特征，在大多数任务下是无法得到最佳性能表现的，因此，在最终交由测试集进行性能评估之前，我们选择利用手头仅有的数据对模型进行调优。前面我们利用的测试集实际上不是严格意义上的测试集，实际上那叫验证集，测试集在监督学习的情况下是没有 y 的，或者说并不知道 y 。分类问题分类模型是数据挖掘中应用非常广泛的，常用的分类算法有 Logistic 模型、决策树、随机森林、神经网络、Boosting 等。针对同一个数据集，可以使用这么多的算法，那如何评估什么样

2020-08-26 10:13:44 1732

原创 python机器学习——正则化实例

正则化实例还是使用前面“比萨饼价格预测”的例子：（1）L1 范数正则化—— Lasso 模型在 4 次多项式特征上的拟合表现# 输入训练样本的特征以及目标值，分别存储在变量 X_train 与 y_train 之中X_train = [[6], [8], [10], [14], [18]]y_train = [[7], [9], [13], [17.5], [18]]# 从 sklearn.linear_model 中导入 LinearRegression。from sklearn.linea

2020-08-26 08:35:15 1359

原创 python机器学习——正则化

范数正则化理论及具体案例操作1、正则化（1）什么是正则化（2）为什么要进行正则化（3）正则化原理2、范数（1）L0 范数（2）L1 范数参考文献1、正则化（1）什么是正则化正则化（ Regularization ）就是对最小化经验误差函数上加正则项约束，这样的约束可以解释为先验知识(有时候正则化参数等价于对参数引入先验分布)。约束有引导作用，在优化误差函数的时候倾向于选择满足约束的梯度减少的方向，使最终的解倾向于符合先验知识(如一般的 l-norm 先验，表示原问题更可能是比较简单的，这样的优化倾向于

2020-08-25 13:58:13 2475

原创 python机器学习——欠拟合，过拟合实例

欠拟合，过拟合及正则化实例实现参考文献以“比萨饼价格预测”问题为例，分别用 1 次， 2 次和 4 次函数去拟合，然后看看在测试数据上的表现。如表 3-1 所示，美国一家披萨店出手不同尺寸的比萨，其中每种直径( Diameter )都对应一个报价。我们所要做的是设计一个线性模型，可以有效地根据表 3-2 中比萨的直径特征来预测售价。目前我们所知，共有 5 组训练数据、4 组测试数据，并且其中测试数据的披萨报价未知。根据我们的经验，如果只考虑比赛的尺寸与售价的关系，可以使用线性回归模型建模：（1）使

2020-08-24 07:38:35 1280

原创 python机器学习——欠拟合与过拟合

欠拟合与过拟合欠拟合和过拟合（1）泛化能力（2）欠拟合（3）过拟合（4）机器学习中好的拟合（5）两个例子（6）如何判断一个模型是欠拟合还是过拟合参考文献所谓拟合，是指机器学习模型在训练的过程中，通过更新参数，使得模型不断契合可观测数据（训练集）的过程，但在这个过程中容易出现欠拟合和过拟合的情况：一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整参数使得模型能够更好的拟合训练集数据，但是优化到了一定程度就需要解决过拟合的问题了。欠拟合和过拟合（1）泛化能力泛化：具体指模

2020-08-23 13:18:52 2133

原创【深度之眼】吴恩达《机器学习》作业——week1线性回归

线性回归在下面的房价预测问题中，我们需要拟合一条直线，根据房屋的大小来预测房价。这是一个监督学习的问题，因为我们的数据中有标签也就是房价，同样这还是一个回归问题，因为预测变量 y （也就是我们的房价）是连续的实数。下面我们定义一些常用的符号m 表示我们训练样本的数量，也就是我们有多少条数据。x 表示我们的输入变量或者说特征y 表示我们的输出变量或者说标签我们使用（x,y）表示一个训练样本，（x(i),y(i)）（x^{(i)},y^{(i)}）（x(i),y(i)）来表示第i个训练样本。

2020-08-22 11:48:05 453

原创【深度之眼】吴恩达《机器学习》作业——week1无监督学习

无监督学习与监督学习不同，无监督学习是指对没有标签的数据进行学习，或者说对没有正确答案的数据进行学习，一个例子如下所示。我们希望我们的机器学习算法能够自动的将图中的数据分为左下和右上这两类。类似这种探寻数据内在结构，通过算法对无标签数据进行划分族群的算法称为聚类分析。比如我们在网上看新闻的时候我们会发现类似的新闻会被归为一类，例如体育，娱乐，经济，政治等等。我们知道成数十万以上的新闻是不可能有标签的，我们只能通过聚类算法，将相似的新闻归为一类。聚类分析还在计算机集群（试图找到哪些计算机会协同合

2020-08-22 11:26:00 335

原创 python 机器学习——特征筛选实现

特征筛选实现1、特征筛选2、特征筛选具体案例操作参考文献：1、特征筛选（1）含义特征筛选/选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS )，或属性选择( Attribute Selection )。是指从已有的 M 个特征( Feature )中选择 N 个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个

2020-08-22 09:43:07 10933 2

原创分类变量——卡方检验

卡方检验（ Chi-square test ）卡方检验（ Chi-square test ）就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，越不符合；卡方值越小，偏差越小，越趋于符合，若两个值完全相等时，卡方值就为0，表明理论值完全符合。其中，Ai 为第 i 类的观察频数，Ei 第 i 类的期望频数，n 为总实验次数，pi 为第 i 类的理论概率。Ei = n×pi，k为类别总数。当 n 比较大时，χ2 统计量近似服从 k-1个自

2020-08-22 09:24:30 7808

原创【深度之眼】吴恩达《机器学习》作业——week1机器学习基本概念

吴恩达《机器学习》作业——week1机器学习基本概念课程连接

2020-08-21 12:28:24 562

原创 python机器学习及实践——基础篇整理

一、监督学习——分类模型1、支持向量机入门简介2、手写体数据识别——支持向量机案例3、Python 机器学习及实践——朴素贝叶斯理论4、python 机器学习——K 近邻分类理论及鸢尾（ Iris ）数据集实例操作5、python机器学习——决策树（分类）及“泰坦尼克号沉船事故”数据集案例操作6、python机器学习——集成学习（分类）及“泰坦尼克号沉船事故”数据集案例操作二、监督学习——回归模型1、python 机器学习——线性回归与波士顿房价案例2、python机器学习——支持向量机回

2020-08-21 10:02:18 486

原创 python机器学习——主成分分析PCA实现

主成分分析PCA实现一、数据降维二、应用“手写体数字图像”数据进行PCA操作参考文献：一、数据降维降维/压缩问题是选取具有代表性的特征，在保持数据多样性（ Variance ）的基础上，规避掉大量的特征冗余和噪声，不过这个过程也很有可能会损失一些有用的模式信息。经过大量的实践证明，相较于损失的少部分模型性能，维度压缩能够节省大量用于模型训练的时间，使得 PAC 所带来的模型综合效率变得更为划算。在数据挖掘过程中，高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中，维度过高使很多学

2020-08-21 09:38:47 1606

原创 python机器学习——主成分分析理论简介

主成分分析理论简介一、特征降维1.1什么是特征降维？1.2为什么要进行特征降维？1.3特征选择和特征抽取二、主成分分析(PCA)理论2.1 算法描述2.2 PCA 在图像识别的应用2.3、主成分分析法优缺点参考一、特征降维1.1什么是特征降维？采用低维度的特征来表示高维度的特征，减少计算机运算量的同时，最大程度保证信息量的完整。1.2为什么要进行特征降维？首先在机器学习中，如果特征的分量数目(也可称之为维度)过多，会发生所谓的维数灾难。维数灾难最直接的后果就是过拟合现象，而发生该现象最根本的原因是

2020-08-20 09:30:01 1089

原创 python机器学习——Kmeans之K值选取实现（肘部观察法）

Kmeans之K值选取实现# 导入必要的工具包。import numpy as npfrom sklearn.cluster import KMeansfrom scipy.spatial.distance import cdistimport matplotlib.pyplot as plt# 使用均匀分布函数随机三个簇，每个簇周围10个数据样本。cluster1 = np.random.uniform(0.5, 1.5, (2, 10))cluster2 = np.random.unif

2020-08-19 07:53:35 9743

原创 python 机器学习——Kmeans之K值的选取原理

Kmeans之K值的选取参考一般而言，没有所谓最好的选择聚类数的方法，通常情况下是需要根据不同的问题，人工进行选择的。选择的时候思考我们运用 K-means 算法聚类的动机是什么，然后选择能最好服务于该目的标聚类数。当人们在讨论选择聚类数目的方法时，有一个可能会谈及的方法叫作“肘部”观察法，下面就来详细介绍这种方法。（1）原理思路“肘部”观察法用于粗略预估相对合理的类个数。思路：因为 K-means 模型最终期望所有数据点到其所属的类簇距离的平方和趋于稳定，所以可以通过观察这个数值随着 K 的走势来

2020-08-18 08:10:44 3181

原创 python 机器学习——聚类性能评估

聚类性能评估一、综述二、Rand index(兰德指数)(RI) 、Adjusted Rand index(调整兰德指数)(ARI)三、Silhouette Coefficient(轮廓系数)(s(i))四、建模实例参考文献：一、综述聚类性能度量亦称聚类“有效性指标”(validity index)。与监督学习中的性能度量作用类似，对聚类结果，我们需要通过某种性能度量来评估其好坏；另一方面，若明确了最终将要使用的性能度量，则可直接将其作为聚类过程的优化目标，从而更好地得到符合要求的聚类结果。聚类是将样

2020-08-16 11:29:13 3809 4

原创 R语言——三个数据集

第一章数据概览（1）三个数据集1.1 uspop 数据集为一组时间序列数据，从 1790 年至 1970 年，每隔 10 年取一个值1.2 Titanic 数据集记录了泰坦尼克号沉船事件中乘客年龄，性别，船舱等级，以及是否存活 4 项信息。1.3 Women 数据集是一张 15*12 的表格，相应存放着 15 个样本和 2 个变量的数据信息。参考“数据” 是我们进行数据挖掘的起点。只要我们细心观察，我们可以发现数据无处不在。一个小商店，某一天的可乐销售量是单个数据；某影院，《疯狂原始人》的每场上座率是一组

2020-08-15 15:51:01 2268

原创 R语言的下载安装

R语言的下载安装1、打开R的官网（https://www.r-project.org/）点击dowmload R2、选择一个中国的镜像3、根据操作系统选择相应的R软件进行安装（我用的windows）4、点击install R for the first time5、点击Download R 4.0.2 下载6、下载完成后双击exe文件7、选择中文简体，点击确定8、点击下一步8、选择安装路径点击下一步（搞不懂可以直接下一步）9、32位的不要勾选64位的，一般现在电脑都是6

2020-08-15 15:35:42 23978 1

原创 python机器学习——Kmeans聚类

Kmeans聚类聚类基本思想Kmeans 介绍python 实现参考聚类基本思想背景：由于获取带有标签的数据成本比较高（因为需要人工标记），而没有标签的数据却很容易获得。如果我们可以根据样本自身的属性或者说特征，给这写样本进行分类那么即节省了成本也达到了我们分类的目的。思想：我们举一个例子来阐述聚类的基本思想，例如我们让一个班级的人走到操场上去玩耍，我们会发现一个班级的几十个人会自动的聚成几人一组，体现出一种无以类聚，人以群分的特点。Kmeans 介绍K-Means 算法主要解决的问题如下图所

2020-08-15 14:48:32 726

原创 python机器学习——聚类分析简介

聚类分析数据聚类理论理论一、聚类定义二、聚类与分类区别三、聚类分析的目的四、聚类主要方法数据聚类理论理论一、聚类定义数据聚类 ( Cluster analysis )是指根据数据的内在性质将数据分成一些聚合类，每一聚合类中的元素尽可能具有相同的特性，不同聚合类之间的特性差别尽可能大。聚类分析是研究“物以类聚”的一种科学有效的方法，由实验测试得到的数据是原始数据，原始数据是没有进行分类的、无规律的、错综复杂的变量，要使得这些数据能够反映出一定的规律性或特殊的分类性，需要对数据或变量进行聚类分析，以使数

2020-08-10 18:41:42 1985 1

原创 python机器学习——实现bagging及随机森林（回归）

实现bagging及随机森林（回归）数据预处理bagging 实现随机森林实现参考本文我们依然使用波士顿房价数据作为案例，进行分析。数据预处理# 从 sklearn.datasets 导入波士顿房价数据读取器。from sklearn.datasets import load_boston# 从读取房价数据存储在变量 boston 中。boston = load_boston()# 从sklearn.cross_validation 导入数据分割器。from sklearn.model_s

2020-08-09 08:54:22 2879 3

空空如也

空空如也