数据笔记
文章平均质量分 84
ProfMoriarty
这个作者很懒,什么都没留下…
展开
-
聚类算法——Kmeans
目录# Kmeans# Kmeans与KNN的区别KmeansKNNK的含义K是人工固定好的数字,假设数据集合可以分为K个簇,由于是依靠人工定好,需要一点先验知识来了一个样本x,要给它分类,即求出它的y,就从数据集中,在x附近找离它最近的K个数据点,这K个数据点,类别c占的个数最多,就把x的label设为c区别1.K-Means是聚类算法2.非监督学习3.喂给它的数据集是无label的数据,是杂乱无章的,经过聚类后才变得有点顺序,先无序,后有序4.有明显的前期训练过转载 2021-05-28 16:43:33 · 736 阅读 · 0 评论 -
Bagging(引导聚集算法)简述
目录1 概念2 原理2.1 方差2.2 模型的偏差与方差1 概念 Bagging算法 (Bootstrap aggregating,引导聚集算法),又称装袋算法,是机器学习领域的一种团体学习算法。 Bagging算法可与其他分类、回归算法结合,提高其准确率、稳定性的同时,通过降低结果的方差,避免过拟合的发生。b原创 2021-05-11 12:15:00 · 1179 阅读 · 0 评论 -
偏差、方差、标准差、协方差
目录1 期望值(Expectation)2 偏差(Bias)3 方差(Variance)3.1 总体方差(Population Variance)3.2 样本方差(Sample Variance)4 标准差(Deviation)4.1 总体标准差(Population Standard Deviation)4.2 样本标准差(Sample Standard Deviation)5 协方差(Covariance)5.1 协方差(Covariance)5.2 协方差矩阵(Covariance Matrix)5.原创 2021-05-06 15:14:30 · 4204 阅读 · 0 评论 -
DataFrame的字符类型dtypes为什么是object,而不是str
原因:因为字符串长度是不固定的,pandas没有选择用字节字符串的形式而是用了object,存储为指针,而非比特。A: The dtype object comes from NumPy, it describes the type of element in a ndarray. Every element in an ndarray must have the same size in bytes. For int64 and float64, they are 8 bytes. But for s翻译 2021-03-19 11:44:22 · 2685 阅读 · 0 评论 -
cursor游标讲解
目录1、什么是游标?2、使用游标的好处?3、利用python连接数据库1)以python连接mysql数据库为例2)使用游标的操作步骤4、案例讲解1、什么是游标? 游标,通俗的解释就是"游动的标志",这是数据库中一个很重要的概念。 有时候,我们执行一条查询语句的时候,往往会得到N条返回结果,执行sql语句取出这些返回转载 2021-03-15 07:58:44 · 3489 阅读 · 0 评论 -
《Python数据分析与数据化运营》学习笔记§1
1.1 用python做数据化运营1. 数据化运营的意义提高运营决策效率提高运营决策正确性优化运营执行过程(标准化、数据化)提升投资回报2. 数据化运营的方式辅助决策式:是运营的决策支持数据驱动式:将业务流程、逻辑、技巧封装为特定应用3. 工作流程...原创 2021-03-02 00:54:38 · 710 阅读 · 0 评论 -
谁说菜鸟不会数据分析》学习笔记-2
《谁说菜鸟不会数据分析》学习笔记-2数据分析报告1、作用展示分析结果、验证分析质量、为决策者提供参考依据2、原则规范性:名词术语规范、标准统一、前后一致重要性:体现分析重点谨慎性:数据真实完整,过程科学、合理、全面,结果可靠创新性:适时引入新的研究模型或分析方法3、类型专题分析报告内容单一,不求反应全貌,要求深入分析综合分析报告全面性,反应总体特征,作出总体评价联系性:在系统分析指标体系的基础上,考察现象之间的内外部联系日常数据通报进度性:执行进度与时间进展结合原创 2020-12-01 12:41:53 · 146 阅读 · 0 评论