自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 HCIE:第七章Python数据挖掘案例分析(学习笔记)

常用函数:read_csv、read_table、read_sql,其中read_csv与read_table默认使用的分隔符不同。两者常用参数如下:seq/delmiter:用来指定数据之间的分隔符,read_csv默认为逗号,read_table默认为\t(制表符)header:用来指定标题行,如果数据集中没有标题行,则默认为Nonenames:读取数据时,用该属性设置列索引。index_col:将数据集中的某一列(某几列)设置为行索引,通过index_col来进行指定。

2024-03-10 18:47:26 968 1

原创 HCIE:第六章模型评估与优化(学习笔记)

(1)数据集划分:数据集:在机器学习任务重使用的一组数据训练集:训练过程中使用的数据集测试集:使用其进行预测的过程称为测试,使用的数据集称为测试集交叉验证集:用于衡量训练过程中模型的好坏(2)偏差/方差偏差:衡量算法的期望预测与真实值之间的偏差成都,反映了模型本身的拟合能力。方差:衡量同等大小的训练集的变动导致模型学习的变化,刻画了数据扰动所导致的影响。模型越复杂,拟合能力就越好,模型的偏差就越好、方差大、过拟合;方差越小、模型过于简单、偏差大、欠拟合。(3)算法分类。

2024-02-26 23:11:57 643 1

原创 HCIE:第五章关联分析与推荐问题建模(学习笔记)

关联规则基本概念:项集:项的集合,包含K个项的项集成为K项集;频繁项集:满足规定的最小支持度的项集;支持度:表示物品集X和Y同时出现的次数占总记录数的比例。置信度:集合X与集合Y同时出现的总次数/集合X出现的记录数。提升度:表示含有X的条件下同时含有Y的概率占Y总体发生的概率之比。最小支持度:专家定义的衡量支持度的阈值,表示项目集在统计意义上的最低重要性。最小置信度:专家定义的衡量置信度的阈值,表示关联规则的最低可靠性。强关联规则:同时满足最小支持度阈值和最小置信度阈值的规则。

2024-02-21 21:30:00 830

原创 HCIE:第四章聚类与降维问题建模(学习笔记)

无监督学习概念:是指在未加标签的数据中,根据数据之间本身的属性特征和关联性对数据进行区分,相似相近或关联性强的数据放在一起,而不相似不相近、关联性不强的数据不放在一起。最常用的场景:部分降维算法、聚类算法和关联算法。聚类分析两个基本问题:性能度量、距离计算性能度量:通过某种性能度量对聚类结果的好坏进行评估。分为外部指标和内部指标两类。距离计算:欧氏距离(欧几里得距离)和余弦相似度,欧氏距离会受指标不同单位刻度影响需要先对数据进行标准化;余弦相似度不会受指标刻度影响,在[-1,1]区间值越大差异越小。

2024-02-20 22:00:00 885 1

原创 HCIE:第三章回归与分类问题建模(学习笔记)

机器学习分类:有监督学习(回归、分类)、无监督学习(聚类)、半监督学习、强化学习回归:等价于函数拟合,使用一条函数曲线使其很好的拟合已知函数且很好的预测未知数据。用于预测输入变量和输出变量之间的关系;包括学习和预测两个过程,预测值为连续的;按照变量个数划分:一元回归、多元回归;按照输入变量与输出变量之间关系的类型:线性回归、非线性回归。分类:通过构造一个分类函数或分类器,将数据库中数据项映射到给定类别中某一个,从而用于预测未知数据。分类问题可划分为:线性可分、线性不可分。

2024-02-19 20:00:00 1322 1

原创 HCIE:第二章数据预处理及特征工程(学习笔记)

1、数据属性类别:标称属性、二元属性、序数属性、数值属性2、机器学习属性分类:离散属性、连续属性3、数据汇总统计:中心趋势度量、度量数据散步中心趋势度量:均值、加权算数均值、截尾均值、中位数、众数、中列数、正倾斜、负倾斜度量数据散步:极差、分位数、四分位数、百分位数、四分位数极差、方差、标准差4、数据预处理:数据清洗和特征预处理数据清洗:缺失值处理(去除、填补)、异常值处理、不均衡数据处理(超过4:1)特征预处理:特征缩放、连续型特征离散化、离散型特征编码、数据变换。

2024-02-17 22:26:51 572 1

原创 HCIE:第一章数据挖掘介绍(学习笔记)

R语言、Anaconda、TensorFlow、PyTorch、Scikit-learn、ML。商业理解:确定业务目标、项目可行性分析、确定数据挖掘目标、提出项目计划。数据准备:数据选择、数据清洁、数据创建、数据合并、数据格式化。建立模型:选择建模技术、测试方案设计、模型训练、模型测试评估。模型实施:实施计划、建卡和维护计划、作出最终报告、项目回顾。数据理解:收集原始数据、描述数据、探索数据、监察数据质量。模型评估:结果评估、过程评估、确定下一步工作。CRISP-DM(跨行业数据挖掘标准流程)

2024-02-08 17:13:35 333

原创 天池训练营python第四天学习内容

列表 列表的定义 列表的创建 向列表中添加元素 删除列表中的元素 获取列表中的元素 列表的常用操作符 列表的其他方法 元组 创建和访问一个元组 更新和删除一个元组 元组相关的操作符 内置方法 解压元组 列表简单数据类型整型<class 'int'> 浮点型<class 'float'> 布尔型<class 'bool'>容器数据类型列表<class 'list'> 元组<class

2021-08-27 22:53:32 70

转载 天池训练营python第三天学习内容

循环语句1. while 循环while语句最基本的形式包括一个位于顶部的布尔表达式,一个或多个属于while代码块的缩进语句。while 布尔表达式: 代码块while循环的代码块会一直循环执行,直到布尔表达式的值为布尔假。如果布尔表达式不带有<、>、==、!=、in、not in等运算符,仅仅给出数值之类的条件,也是可以的。当while后写入一个非零整数时,视为真值,执行循环体;写入0时,视为假值,不执行循环体。也可以写入str、list或任何序列,长度非零则视

2021-08-26 21:19:31 75

原创 天池训练营python第二天学习内容

- 条件语句 - if 语句 - if - else 语句 - if - elif - else 语句 - assert 关键词- 循环语句 - while 循环 - while - else 循环 - for 循环 - for - else 循环 - range() 函数 - enumerate()函数 - break 语句 - continue 语句 - pass 语句 - 推导式...

2021-08-25 11:03:43 51

转载 阿里云天池龙珠计划SQL训练营day1

本笔记为阿里云天池龙珠计划SQL训练营的学习内容,链接为:https://tianchi.aliyun.com/specials/promotion/aicampsql;一、初识数据库数据库是将大量数据保存起来,通过计算机加工而成的可以 进行高效访问的数据集合。该数据集合称为数据库(Database,DB)。用来管理数据库的计算机系统称为数据库管理系统(Database Management System,DBMS)。1.1 DBMS的种类DBMS 主要通过数据的保存格式(数据库的种类)来进

2021-08-24 17:11:05 125

原创 天池龙珠训练营笔记day1

学习内容:- 变量、运算符与数据类型 - 注释 - 运算符 - 变量和赋值 - 数据类型与转换 - print() 函数- 位运算 - 原码、反码和补码 - 按位非操作 ~ - 按位与操作 & - 按位或操作 | - 按位异或操作 ^ - 按位左移操作 << - 按位右移操作 >> - 利用位运算实现快速计算 - 利用位运算实现整数集合个人感悟:每行代...

2021-08-23 17:23:45 56

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除