Python数据分析可视化和大模型的随想

浩子一定能劈叉

于 2022-09-04 00:47:22 发布

阅读量626

点赞数

CC 4.0 BY-SA版权

文章标签： python 数据分析数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_54521398/article/details/126684564

什么是智能？

我们今天所说的人工智能，即AGI，实质上距离我们大多数人所想的AI还差之甚远，今天所谓的“智能”是挖掘信息，实现预测的意思。其整个流程是Data--->Information--->Knowladge--->Wisdom,其实就是用简单的Data实现最复杂的Wisdom的过程，我们就称之为“智能”

关于数据

数据是智能的基础，Π——圆周率，一个永不重复，永无止境的数据，其中包含了所有的数字组合，经过转化就是所有的文本组合，包括我们读过的每一本书，我们讲过的每一句话，我们的生日，身份证号码，我们的生平事迹......这就是数据。关于数据的研究可以分为三类：Vector（向量）、Matrix（矩阵）和Tensor（张量），即一维数组，二维数组和多维的数组

什么是数据挖掘？

“数据挖掘是从大型数据库中自动地发现有用信息的过程”。数据挖掘任务可以分为四个方面

预测建模
关联分析
聚类分析
异常检测

预测建模包括回归和分类，回归简单来讲就是由数据到方程的映射，解决的是产生数据的根本的问题。而分类就是我们了解的人脸识别、声音识别、情感分析、语音识别等任务。而这些任务的实现是基于模型的，即由训练集和测试集产生的模型得出结果

关联分析是由模型的反馈得出事物间的联系，最常见的案例就是啤酒和尿布的关联销售

聚类分析是无监督的学习，是基于数据的相似性和差异性进行分类的步骤

异常检测可以检测出异常或缺失的数据

常见的分类算法：决策树、KNN、BAYES、SVM和我们熟知的神经网络

常见的聚类算法：Kmeans、凝聚层次聚类和DBSCAN

泰坦尼克号数据的分析

下载好数据集，导入Pycharm就可以进行分析啦

数据：

分析结果：

生还和舱位等级的关系

生存和死亡人数的比例

各年龄段生还和罹难的人数比例

各因素间的相关性分析

关于大模型

大模型时未来人工智能和机器学习领域的重点，采用预训练模型+微调的范式进行对AI的训练是现在的主流做法。所谓的预训练模型就是数据的迁移，利用可共享的现成数据进行训练，而后期的微调则是根据产品特点进行的个性化训练。解决数据处理速度的问题一般使用数据蒸馏的方法

数据蒸馏

大模型作诗

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。