自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Task06-MySQL基础学习之习题训练

练习题1 练习一: 各部门工资最高的员工(难度:中等)2 练习二:换座位(难度:中等)3 练习三: 分数排名(难度:中等)4 练习四:连续出现的数字(难度:中等)5 练习五:树节点 (难度:中等)6 练习六:至少有五名直接下属的经理 (难度:中等)7 练习七: 分数排名 (难度:中等)8 练习八:查询回答率最高的问题 (难度:中等)练习九:各部门前3高工资的员工(难度:中等)10 练习十:平面上最近距离 (难度: 困难)11 练习十一:行程和用户(难度:困难)1 练习一: 各部门工资最高的员工(难度:中等

2020-12-23 13:25:51 148

原创 Task05-MySQL基础学习之高级处理

SQL进阶1 窗口函数1.1 窗口函数概念及基本的使用方法1.2 窗口函数种类1.3 聚合函数在窗口函数上的应用1.4 窗口函数的应用-计算移动平均2 GROUPING运算符2.1 ROLLUP - 计算合计及小计3 练习题3.1 请说出针对本章中使用的 product(商品)表执行如下 SELECT 语句所能得到的结果。3.2 继续使用product表,计算出按照登记日期(regist_date)升序进行排列的各日期的销售单价(sale_price)的总额。排序是需要将登记日期为NULL 的“运动 T 恤

2020-12-23 10:26:25 183

原创 Task04-MySQL基础学习之集合运算

集合运算1 表的加减法1.1 集合运算1.2 表的加法-UNION1.2.1 UNION1.2.2 UNION ALL1.2.3 bag模型与set模型1.2.4 隐式类型转换1.3 INTERSECT的使用1.4 差集,补集与表的减法1.4.1 EXCEPT 与 NOT 谓词1.4.2 EXCEPT ALL 与bag 的差1.4.3 INTERSECT 与 AND 谓词1.5 对称差2 连结(JOIN)2.1 等值连接2.2 非等值连接2.2.1 非等值自左连接(SELF JOIN)2.2.2 交叉连结—

2020-12-22 11:25:54 238

原创 Task03-MySQL基础学习之复杂查询

稍复杂的查询语法1 视图1.1 视图的概念1.2 视图与表的区别1.3 视图的优点1.4 视图的创建1.4.1 基于单表创建1.4.2 基于多表创建1.5 修改视图结构1.6 更新视图内容1.7 删除视图2 子查询2.1 子查询概念2.2 子查询和视图的关系2.3 关于子查询的内容2.3.1 标量子查询2.3.2 关联子查询3.各种各样的函数4.谓词5.CASE表达式6.习题6.1 第一部分6.1.1 创建出满足下述三个条件的视图(视图名称为 ViewPractice5_1)。使用 product(商品)表

2020-12-17 19:59:05 171

原创 Task02-MySQL基础学习之查询与排序

MySQL基础学习之查询与排序1 SELECT语句基础1.1 从表中选出数据1.2 从表中选出符合条件的数据1.3 相关法则2 算术运算符和比较运算符2.1 算数运算符2.2 比较运算符2.3 常用法则3 逻辑运算符3.1 NOT运算符3.2 AND运算符和OR运算符3.3 真值表4 对表进行聚合查询4.1 常用聚合函数4.2 常用法则5 对表进行分组5.1 GROUP BY语句5.2 常见错误5.3 为聚合结果指定条件5.3.1 用HAVING得到特定分组5.3.2 HAVING语句特点6 对表进行排序6

2020-12-16 20:03:49 111

原创 Task01-MySQL基础学习之初识数据库

1 数据库概念介绍数据库是将大量数据保存起来,通过计算机加工而成的可以进行高效访问的数据集合。该数据集合称为数据库(Database,DB)。也就是说,数据库的本质是数据集合。用来管理数据库的计算机系统称为数据库管理系统(Database Management System,DBMS)。1.1 DBMS种类DBMS 主要通过数据的保存格式(数据库的种类)来进行分类,现阶段主要有以下 5 种类型:层次数据库(Hierarchical Database,HDB)关系数据库(Relational

2020-12-14 22:45:38 131

原创 数据分析:Task5-数据建模及模型评估

1.关于nan的问题1.在pandas中有个另类的存在就是nan,解释是:not a number,不是一个数字,但是它的类型确是一个float类型。numpy中也存在关于nan的方法,如:np.nan2.对于pandas中nan的处理,简单的说有以下几个方法。查看是否是nan, s1.isnull() 和 s1.notnull()丢弃有nan的索引项,s1.dropna()将nan填充为其他值,df2.fillna()不能用=,== !!!2.分类变量自动编码data = pd.get_d

2020-08-21 17:49:10 279

原创 数据分析:Task4-数据可视化

1.可视化男女生存与死亡情况result['sur_'].groupby(result["性别"]).value_counts().unstack().plot(kind = "bar",stacked = "True")plt.title('survived_count')plt.ylabel('count')plt.xlabel("sex")注意value_counts和unstack的用法!!2.计数柱状图方法1:sns.countplot(x=None, y=None, hue=N

2020-08-21 17:44:53 197

原创 数据分析:Task2-数据清洗及特征处理

1.重复值,df.duplicated()drop_duplicates,删除整行重复值2.连续型变量离散化(分箱)1.将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示df["box"] = pd.cut(df["年龄"],5,labels=["1","2","3","4","5"])2.#将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示df['AgeBand'] = pd.cut(df

2020-08-21 17:40:52 142

原创 数据分析:Task3-数据重构

1.concat、merge、join、append的区别2.stack和unstack函数stack的意思是堆叠,堆积,unstack即“不要堆叠”。常见的数据的层次化结构有两种,一种为表格,一种为花括号。表格在行列方向上均有索引(类似于DataFrame),花括号结构只有“列方向”上的索引(类似于层次化的Series),结构更加偏向于堆叠(Series-stack,方便记忆)。stack函数会将数据从”表格结构“变成”花括号结构“,即将其行索引变成列索引,反之,unstack函数将数据从”花

2020-08-21 09:55:20 121

原创 Task1:数据探索与分析

变量间相关性分析与独立性分析定类变量:名义型变量; 性别定序变量:不仅分类,还按某种特性排序;两值的差无意义; 教育程度定距变量:可比较大小、差有意义的变量

2020-08-20 21:58:29 92

原创 数据分析:Task1-数据加载及探索性分析

本次学习有几点收获,写在下面1.关于read_csv和read_table的区别read_csv和read_table的区别在于separator分隔符。csv是逗号分隔值(Comma-Separated Values),仅能正确读入以 “,” 分割的数据。read_table的分隔符是tabTSV文件与CSV文件的区别TSV 是Tab-separated values的缩写,即制表符分隔值。相对来说CSV,Comma-separated values(逗号分隔值)更常见一些。TSV与CSV的

2020-08-19 17:27:23 129

原创 Task 6:基于深度学习的文本分类3

学习目标了解了解Transformer的原理和基于预训练语言模型(Bert)的词表示学会Bert的使用,具体包括pretrain和finetuneTransformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一

2020-08-03 18:29:27 140

原创 Python-Task2 条件循环结构

一、知识点1、条件语句具体内容包括:if语句、if-else语句、 if - elif - else 语句、assert 关键词。我不熟悉的知识点如下:Python 使用缩进而不是大括号来标记代码块边界,因此要特别注意else的悬挂问题。elif 语句即为 else if,用来检查多个表达式是否为真,并在为真时执行特定代码块中的代码。temp = input('请输入成绩:')source = int(temp)if 100 >= source >= 90: print('

2020-07-23 23:30:36 96

原创 Python-Task1 变量、运算符、数据类型及位运算

怎样对python中的代码进行注释?单行注释'''多行注释'''python有哪些运算符,这些运算符的优先级是怎样的?# 算术运算符print(1 + 1) # 2print(2 - 1) # 1print(3 * 4) # 12print(3 / 4) # 0.75print(3 // 4) # 0print(3 % 4) # 3print(2 ** 3) # 8# 比较运算符print(2 > 1) # Trueprint(2 >=

2020-07-22 21:54:35 99

原创 NLP-Task 2 数据读取与分析

前言本篇主要进行数据的读取与分析工作。2.1 数据读取与分析2.1.1 数据读取首先进行数据读取,采用pandas库的read_csv将前100行读下来,以“\t”进行分隔,显示前五行。第一列为系统生成的索引,第二列为文本的标签,第三列为文本经匿名处理后的结果,每一行代表一条文本。2.1.2 数据分析数据分析的三个目标:赛题数据中,新闻文本的长度是多少?赛题数据的类别分布是怎么样的,哪些类别比较多?赛题数据中,字符分布是怎么样的?2.1.2.1 句子长度分析可以看出,文本最长

2020-07-22 01:34:14 209

原创 NLP-Task 1 赛题理解

前言第一次参加类似的比赛,也是第一次写博客,希望可以记录自己的收获与成长。Task 1 赛题理解赛题:零基础入门NLP赛事-新闻文本分类地址:[https://tianchi.aliyun.com/competition/entrance/531810/introduction]1.1 赛题理解1.赛题名称:零基础入门NLP之新闻文本分类2.赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。3.赛题任务:赛题以自然语言处理为背景,

2020-07-21 16:32:29 159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除