自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 DataWhale SQL Task04:集合运算

Task04: 集合运算UNION求并集UNION会取出重复的记录包含重复行的集合运算UNION ALL隐式转换为了将两表中不同类型的数据也能够相交,可以使用隐式转换的方式将两个类型不同的数据放在同一列中展示。如product中无sale_price数据,使用‘1’来替代这个数据和product2进行相交操作INTERSECT交集mysql中不支持交集操作可以使用交集和子查询的方法以及对称差等方法实现交集操作使用文式图可以看出交集可以通过先计算集合1和集合2的差集,再计算此差

2020-12-22 22:31:52 204

原创 DataWhale SQL 学习 Task 03

Task 03 : 复杂一点的查询视图创建视图CREATE VIEW <view name> (<col1>,<col2>....) AS <SELECT ...>修改视图结构ALTER VIEW <view name> AS <SELECT ...>更新视图UPDATE productsumSET sale_price = '5000'WHERE product_type ='办公用品';删除视图DRO

2020-12-21 15:00:37 134

原创 DataWhale SQL TASK 2

DataWhale SQL TASK 2基础查询SELECT从表中查询出必要的数据,通过SELECT语句进行匹配查询SELECT <column name>, FROM < table name>;WHERE制定查询条件,查询出符合该条件的记录SELECT <column name>, FROM < table name>WHERE < 条件表达式>;-------SELECT product_name, product

2020-12-17 22:22:07 126

原创 DataWhale sql学习(一)初识数据库

DataWhale 组队学习:SQL-TASK01基础知识点数据(data):描述事物的符号记录称为数据数据库(DataBase, DB): 长期存储在计算机内,有组织,可共享的大量数据的集合。按一定的数据模型组织、描述和存储。较小的冗余度(redundancy)较高的数据独立性(data independency)易扩展性(scalability)为各种用户共享数据库管理系统(DataBase Management System, DBMS)DDL数据定义语言, 用于创建或

2020-12-15 22:06:36 289

原创 DataWhale python基础 Task3异常检测

Task 3 异常处理python标准异常总结标准警告总结try-except

2020-07-24 08:32:35 122

原创 DataWhale python基础 Task2 条件语句、循环语句

条件语句if语句if语句只有条件表达式expression为真是才执行后续代码块代码,否则跳过。单个if语句中的expression可以通过and,or, not实现多重条件判断。if expression: expr_true_suiteif 2 > 1 and not 2 > 3: print('Correct Judgement!')# Correct Judgementif-else 语句if-elif语句assert关键词循环语句while 循环

2020-07-23 23:41:37 123

原创 DataWhale 零基础入门NLP赛事-新闻文本分类 TASK2 数据读取与数据分析

Task2 数据读取与数据分析赛题:零基础入门NLP赛事-新闻文本分类地址:新闻文本分类学习目标学习使用pandas读取赛题数据分析赛题数据的分布规律数据读取该数据是以csv格式进行存储的,使用pandas完成数据读取操作read_csv:filepath:文件路径sep:分隔符,制定没每列的分隔符nrows:一次读取多少条文件,由于数据集较大,先设置读取100条数据...

2020-07-22 23:34:43 173

原创 DataWhale python基础 Task1

DataWhale python基础 Task1变量、运算符与数据类型注释行注释,作用于整行:## 注释print('Hello world')# Hello world区间注释,作用于注释号区间内:''' '''或 """ """'''多行注释,作用于单引号区间内'''"""多行注释,作用于双引号区间内"""print('Hello world')#Hello world运算符逻辑运算符and(与):只要有一个为假则为假or(或):只要有一个为真则为

2020-07-22 22:13:18 157

原创 DataWhale 零基础入门NLP赛事-新闻文本分类 TASK1 赛题理解

TASK 1 赛题理解赛题;零基础入门NLP赛事-新闻文本分类地址:新闻文本分类学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路了解赛题赛题概况数据概况预测指标分析赛题赛题概况赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选

2020-07-21 22:59:11 169

原创 特征工程(3)特征增强:数据清洗

缺失值识别

2020-04-10 09:56:52 953

原创 特征工程(3)特征增强:数据清洗——归一化/标准化

归一化由于机器学习模型收到scale的影响很大,如果有极端离群值可能对某些机器学习算法影响非常大受尺度影响的算法KNN --因为依赖欧几里得距离K均值聚类 – 和KNN一样逻辑回归、SVM、神经网络(如果使用梯度下降来学习权重)主成分分析–特征向量将偏向较大的列归一化将所有定量列转化为同一个静态范围内的值或者使用数据规则:所有列的均值和标准差必须相同标准化通过确...

2020-04-10 09:48:42 2129

原创 特征工程(3)特征增强:数据清洗——缺失值处理

上一篇介绍了如何将缺失值识别出来缺失值识别缺失值处理主要的缺失值处理方法:删除缺少值的行填充缺失值数据集说明数据集:皮马印第安人糖尿病预测数据集数据来源:https://www.kaggle.com/uciml/pima-indians-diabetes-database数据9列,768行该数据希望通过体检结果细节,预测21岁以上的女性5年内会否会换上糖尿病数...

2020-04-10 09:11:45 1038

原创 特征工程(3)特征增强:数据清洗——缺失值识别

缺失值识别数据集说明数据集:皮马印第安人糖尿病预测数据集数据来源:https://www.kaggle.com/uciml/pima-indians-diabetes-database数据9列,768行该数据希望通过体检结果细节,预测21岁以上的女性5年内会否会换上糖尿病数据含义怀孕次数口服葡萄糖耐量试验中的2小时血浆葡萄糖浓度舒张压(mmHg)三头肌皮褶厚度(mm...

2020-04-03 20:12:42 1207

原创 特征工程(2)特征理解

特征理解的基本流程,以及数据的分类,数据的等级分析示例

2020-03-30 11:29:41 864

原创 特征工程(1)特征工程的简介

特征工程是什么将数据转换为能更好的表示潜在问题的特征,从而提高机器学习性能特征工程内容转换数据的过程特征工程适用于任何阶段的数据,通常将数据处理成表格形式,数据组织成行(观察值)列(属性)的形式。特征特征是对机器学习的过程有意义的数据属性。无意义的只是普通属性,而有意义的才称之为特征更好的表示潜在问题需要使用的数据代表了某领域内的某问题,转换数据的目的是为了更好的表达更大的问题...

2020-03-27 21:55:42 1486

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除