自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 余弦距离与欧氏距离

文章目录余弦距离与欧氏距离余弦距离与欧氏距离在机器学习领域中,通常将特征表示为向量的形式,所以在分析两个特征向量之间的相似性时,常用余弦相似度表示。例如将两篇文章向量化,余弦距离可以避免因为文章的长度不同而导致距离偏大,余弦距离只考虑两篇文章生成的向量的夹角。余弦相似度的取值范围是[-1,1],相同两个向量的之间的相似度为1。余弦距离的取值范围是[0,2]...

2020-04-20 19:22:39 321

原创 MySQL变量部分

一、系统变量系统变量:1、全局变量 2、会话变量--全局变量的作用范围是针对整个服务器的,服务器每次启动将为所有的全局变量赋予初始值,针对于所有的会话连接有效,但是不能跨重启,如果想要每次重启都要使用更改过后的变量,这时候需要改变配置文件--会话变量只对当前的会话有效,与全局变量只区别于作用域上面自定义变量:1、用户变量 2、局部变量系统变量是由系统提供的,不是用户定义的,...

2020-04-20 15:48:35 183

原创 生成式模型与判别式模型

判别式模型举例:要确定一个羊是山羊还是绵羊,用判别模型的方法是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。(logistic回归,>0.5为正例,否则,为反例)生成式模型举例:利用生成模型是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率是多少,在放到绵羊模型中看概率...

2020-04-17 22:43:21 282

原创 找到不偏科的学生(提取学生的所有课程都大于各个课程平均分的学生)

今天快手面试,凉凉。首先一道SQL题,刚看起来挺简单的,可是一直不知道如何解决某个学生的所有课程都大于各自的平均分。面试完想了一下,首先计算各个课程的平均分,连接到原本的数据表上,这很容易想到,可是让各个学生的所选课程都大于他该如何弄,可以将各个分数-各自的平均分,按学生分组,删选出差值大于0的学生IDcreate table student_test_info(id bigint prima...

2020-04-17 19:57:26 815

原创 SQL练习题:回购率 复购率 消费差异

文章目录SQL练习题:回购率 复购率 消费差异统计不同月份的下单人数统计用户三月份的回购率和复购率统计男女用户的消费频次是否有差异统计多次消费的用户,第一次和最后一次消费间隔是多少统计不同年龄段,用户的消费金额是否有差异统计消费的二八法则,消费的top20%的用户,贡献了多少额度SQL练习题:回购率 复购率 消费差异统计不同月份的下单人数select month(paidTime),coun...

2020-04-17 09:38:58 1609 4

原创 线分平面 平面分空间

分割平面、空间问题 数学公式(1) n条直线最多分平面问题题目:n条直线,最多可以把平面分为多少个区域。公式:f(n)=n(n+1)/2+1(2)折线分平面公式:f(n)=2n^2-n+1(3...

2020-04-12 10:56:55 713

原创 数据结构与算法:才知道字典可以这么用

n ,m = map(int, input().split())money = list(map(int, input().split()))for _ in range(m): a = int(input()) print(money.count(a))现在可以使用字典的方法n ,m = map(int, input().split())money = list...

2020-04-11 18:39:25 211

转载 数据结构与算法:斐波那契数列的O(logn)解法

文章目录斐波那契数列的O(logn)解法利用动态规划来做利用矩阵乘法斐波那契数列的O(logn)解法我们都知道斐波那契数列有多种解法,比如糟糕的递归法:O(2^n);利用动态规划的O(n),今天来介绍一种利用矩阵乘法的O(log n)方法利用动态规划来做利用矩阵乘法...

2020-04-10 19:49:42 719

原创 数据结构与算法:动态规划

文章目录动态规划一维动态规划1、给定n,找到不同的将n写成1,3,4相加的方法有多少个,顺序不一样算一种2、找到不相邻的加和最大数变形,现在这些银行排成一个圆环该如何做动态规划三大算法:分治法、动态规划与贪婪算法分治法与动态规划的区别:分治法将大问题分成小问题,例如二分法。子问题属性不变,小问题之间互相独立,需要做一个合并的过程(从上到下的方法)动态规划也是将大问题拆解成小问题,不同之处...

2020-04-10 19:09:18 369

原创 数据分析笔试

文章目录牛客网真题笔试部分一、美团点评2020校招数据分析方向1、广告分析2、说明关系型数据库通过索引提升查询效率的背后原理3、污水处理问题4、编程题:旗子翻转5、编程题:寻找最后的山峰7、[编程题]关联查询。九:[编程题]月份天数。输入年份月份,请输出这个月的天数牛客网真题笔试部分一、美团点评2020校招数据分析方向1、广告分析1、广告是互联网企业重要的变现模式,在美团的广告业务中,商...

2020-04-08 16:07:48 1177

原创 python 中如何实现多个数组的输入

利用while 与try except的结合:while True: try: year, month = map(int, input().split()) print(year, month) except: break

2020-04-08 15:49:53 2116

原创 数据结构与算法:B树与B+树

文章目录B树与B+树B树B树的定义B树的查询B树的插入B树与B+树B树B树的定义一个m阶的B树,就是每一个非叶子节点拥有不超过m个子孩子,也可以定义为非叶子节点最多有m个查找路径(当m=2就是二叉,m=3就是三叉)真实得到数据集存储在叶子节点和非叶子结点上。B树需要符合下面的一些限制:1、从根节点到叶子节点的每一条路径都拥有相同的长度2、如果一个节点拥有n个孩子,那么他就拥有n-1个...

2020-04-06 23:30:32 378

原创 MySQL索引与事务

文章目录MySQL索引一、什么是索引二、索引优势和劣势三、索引分类和建索引命令语句四、索引结构与检索原理五、哪些情况适合索引六、哪些情况不适合索引MySQL索引一、什么是索引官方定义:索引(index)是帮助MySQL高效获取数据的数据结构。本质:索引是一种数据结构二、索引优势和劣势三、索引分类和建索引命令语句四、索引结构与检索原理五、哪些情况适合索引六、哪些情况不适合索引...

2020-04-06 22:05:08 160

转载 关系型数据库中主键(primary key)和外键(foreign key)的概念。

刚接触关系型数据库的同学,会听过主键和外键的概念。这是关系型数据库的基本概念,需要清楚理解。今天我就以简洁的语言总结一下这个概念。主键。一句话概括:一张表中,可以用于唯一标识一条记录的字段组(或者说是属性组)。给你一个主键的值,你就可以找到一条确定的记录。如:学生表:学号,姓名,性别,课程。这里学号就是主键。给你一个学号,就可以找到一条学生记录。课程表:课程编号,课程名称,学分。这里课程编号就...

2020-04-06 17:23:56 2178

原创 HiveSQL基础

文章目录HiveSQL一、HiveSQL与传统SQL的区别二、MapReduce的工作流程基础语法一、基础select(与SQL一样)+分区二、group by三、order by四、执行顺序常用函数一、如何把时间戳zhuanHiveSQL一、HiveSQL与传统SQL的区别存储位置上:hivesql存储在hdfs上,传统SQL存储在块设备或者本地文件中数据格式:hiveSQL的数据格式...

2020-04-01 15:50:45 966

原创 Hive基础

文章目录Hive基础一、hive是什么?——数据仓库二、hive与mysql的区别三、Hive的优势四、Hive的数据类型基本数据类型复杂数据类型五、Hive数据定义与操作(重点)数据库相关操作1 创建数据库2 查看数据库信息3 删除数据库4 修改数据库数据表相关1 创建数据表2 查看数据表结构3 内部表与外部表的区别4 修改表5 删除表6 清空表7 分区表8 数据的导入与导出Hive基础首...

2020-04-01 10:01:59 276

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除