自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(71)
  • 资源 (1)
  • 收藏
  • 关注

原创 Markdown语法总结

文章目录Markdown语法总结一、标题二、字体三、段落四、引用五、图片六、列表无序列表有序列表七、代码八、表格九、链接Markdown语法总结  Markdown是一种轻量级标记语言,排版语法简洁,通过简单的标记语法,它可以使普通文本内容具有一定的格式。对于程序员来说是一种记录笔记的非常简便的工具。  使用Markdown是需要记忆一些相关的语法操作,本文将会对常用的Markdown语法进行总结。一、标题在想要设置为标题的文字前面加#来表示,一个#是一级标题,二个#是二级标题,以此类推。支持六级

2021-10-12 14:27:58 241 1

转载 数据库三范式

数据库三范式戳这里

2020-09-02 15:37:30 173

原创 mongo常用命令

文章目录一、python连接mongo二、NoSQL与mongo简介三、mongo创建数据库四、删除数据库示例删除集合(集合相当于数据库中的表)drop与remove十、MongoDB 查询文档参考链接:https://www.runoob.com/mongodb/mongodb-tutorial.htmlMongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系

2020-05-26 23:44:23 359

原创 Linux小知识

文章目录nohup与&后台运行nohup:不挂断的运行-nohup Command [ Arg … ] [ & ]& 指后台运行&& 与 &crond系统定时任务crond服务管理crontab 定时任务设置真实案例2>&1nohup与&后台运行nohup:不挂断的运行-nohup Command [ Arg … ] [ & ]runs the given command with hangup signals ignor

2020-05-26 23:07:53 224 1

原创 排序与搜索

文章目录排序算法的稳定性一、冒泡排序冒泡排序的分析时间复杂度二、选择排序选择排序分析时间复杂度排序算法的稳定性稳定性:稳定排序算法会让原本有相等键值的纪录维持相对次序。也就是如果一个排序算法是稳定的,当有两个相等键值的纪录R和S,且在原本的列表中R出现在S之前,在排序过的列表中R也将会是在S之前。当相等的元素是无法分辨的,比如像是整数,稳定性并不是一个问题。然而,假设以下的数对将要以他们的第一个数字来排序。(4, 1) (3, 1) (3, 7)(5, 6)在这个状况下,有可能产生两种不同的

2020-05-18 23:30:22 209

原创 利用webdriver.Chrome爬取澳大利亚城市的经纬度信息

import timefrom selenium import webdriverimport pandas as pdimport numpy as np# 调用谷歌浏览器driver = webdriver.Chrome()time0 = time.time() # 计时开始# 循环for num, city in enumerate(cityname): driver.get('https://www.google.co.uk/webhp?hl=en&sa=X&a

2020-05-14 20:43:45 518

原创 JSON

文章目录什么是JSON一、python与json数据的交换,JSON的反序列化符合json规范的json字符串json对象object与json数组array二、序列化三、JSON、JSON对象、JSON字符串(面试笔试)的区别什么是JSONjson是轻量级的数据交换格式,强调一万遍:json是一种数据格式说是轻量级,其实是与其他的数据格式做的对比,XML。xml是json之前出现之前的一种...

2020-05-01 22:31:12 234

原创 正则表达式

文章目录正则表达式定义作用一、初识正则表达式1、findall方法:检测一串字符串是否包含指定的字符二、元字符与普通字符1、 \d : 表示0-9的数字2、 \D:表示非数字字符(空格也属于非数字)三、第一个模式:字符集1、[ ]代表或者,中括号里面填入普通字符或元字符2、^ 非:[^字符]3、 a-c:表示a到c四、概括字符集1、\w:匹配是数字+单词字符+下划线的字符串;\w = [A-Za-...

2020-05-01 21:24:21 674

原创 余弦距离与欧氏距离

文章目录余弦距离与欧氏距离余弦距离与欧氏距离在机器学习领域中,通常将特征表示为向量的形式,所以在分析两个特征向量之间的相似性时,常用余弦相似度表示。例如将两篇文章向量化,余弦距离可以避免因为文章的长度不同而导致距离偏大,余弦距离只考虑两篇文章生成的向量的夹角。余弦相似度的取值范围是[-1,1],相同两个向量的之间的相似度为1。余弦距离的取值范围是[0,2]...

2020-04-20 19:22:39 295

原创 MySQL变量部分

一、系统变量系统变量:1、全局变量 2、会话变量--全局变量的作用范围是针对整个服务器的,服务器每次启动将为所有的全局变量赋予初始值,针对于所有的会话连接有效,但是不能跨重启,如果想要每次重启都要使用更改过后的变量,这时候需要改变配置文件--会话变量只对当前的会话有效,与全局变量只区别于作用域上面自定义变量:1、用户变量 2、局部变量系统变量是由系统提供的,不是用户定义的,...

2020-04-20 15:48:35 170

原创 生成式模型与判别式模型

判别式模型举例:要确定一个羊是山羊还是绵羊,用判别模型的方法是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。(logistic回归,>0.5为正例,否则,为反例)生成式模型举例:利用生成模型是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率是多少,在放到绵羊模型中看概率...

2020-04-17 22:43:21 264

原创 找到不偏科的学生(提取学生的所有课程都大于各个课程平均分的学生)

今天快手面试,凉凉。首先一道SQL题,刚看起来挺简单的,可是一直不知道如何解决某个学生的所有课程都大于各自的平均分。面试完想了一下,首先计算各个课程的平均分,连接到原本的数据表上,这很容易想到,可是让各个学生的所选课程都大于他该如何弄,可以将各个分数-各自的平均分,按学生分组,删选出差值大于0的学生IDcreate table student_test_info(id bigint prima...

2020-04-17 19:57:26 768

原创 SQL练习题:回购率 复购率 消费差异

文章目录SQL练习题:回购率 复购率 消费差异统计不同月份的下单人数统计用户三月份的回购率和复购率统计男女用户的消费频次是否有差异统计多次消费的用户,第一次和最后一次消费间隔是多少统计不同年龄段,用户的消费金额是否有差异统计消费的二八法则,消费的top20%的用户,贡献了多少额度SQL练习题:回购率 复购率 消费差异统计不同月份的下单人数select month(paidTime),coun...

2020-04-17 09:38:58 1544 4

原创 线分平面 平面分空间

分割平面、空间问题 数学公式(1) n条直线最多分平面问题题目:n条直线,最多可以把平面分为多少个区域。公式:f(n)=n(n+1)/2+1(2)折线分平面公式:f(n)=2n^2-n+1(3...

2020-04-12 10:56:55 646

原创 数据结构与算法:才知道字典可以这么用

n ,m = map(int, input().split())money = list(map(int, input().split()))for _ in range(m): a = int(input()) print(money.count(a))现在可以使用字典的方法n ,m = map(int, input().split())money = list...

2020-04-11 18:39:25 199

转载 数据结构与算法:斐波那契数列的O(logn)解法

文章目录斐波那契数列的O(logn)解法利用动态规划来做利用矩阵乘法斐波那契数列的O(logn)解法我们都知道斐波那契数列有多种解法,比如糟糕的递归法:O(2^n);利用动态规划的O(n),今天来介绍一种利用矩阵乘法的O(log n)方法利用动态规划来做利用矩阵乘法...

2020-04-10 19:49:42 703

原创 数据结构与算法:动态规划

文章目录动态规划一维动态规划1、给定n,找到不同的将n写成1,3,4相加的方法有多少个,顺序不一样算一种2、找到不相邻的加和最大数变形,现在这些银行排成一个圆环该如何做动态规划三大算法:分治法、动态规划与贪婪算法分治法与动态规划的区别:分治法将大问题分成小问题,例如二分法。子问题属性不变,小问题之间互相独立,需要做一个合并的过程(从上到下的方法)动态规划也是将大问题拆解成小问题,不同之处...

2020-04-10 19:09:18 331

原创 数据分析笔试

文章目录牛客网真题笔试部分一、美团点评2020校招数据分析方向1、广告分析2、说明关系型数据库通过索引提升查询效率的背后原理3、污水处理问题4、编程题:旗子翻转5、编程题:寻找最后的山峰7、[编程题]关联查询。九:[编程题]月份天数。输入年份月份,请输出这个月的天数牛客网真题笔试部分一、美团点评2020校招数据分析方向1、广告分析1、广告是互联网企业重要的变现模式,在美团的广告业务中,商...

2020-04-08 16:07:48 1153

原创 python 中如何实现多个数组的输入

利用while 与try except的结合:while True: try: year, month = map(int, input().split()) print(year, month) except: break

2020-04-08 15:49:53 2080

原创 数据结构与算法:B树与B+树

文章目录B树与B+树B树B树的定义B树的查询B树的插入B树与B+树B树B树的定义一个m阶的B树,就是每一个非叶子节点拥有不超过m个子孩子,也可以定义为非叶子节点最多有m个查找路径(当m=2就是二叉,m=3就是三叉)真实得到数据集存储在叶子节点和非叶子结点上。B树需要符合下面的一些限制:1、从根节点到叶子节点的每一条路径都拥有相同的长度2、如果一个节点拥有n个孩子,那么他就拥有n-1个...

2020-04-06 23:30:32 348

原创 MySQL索引与事务

文章目录MySQL索引一、什么是索引二、索引优势和劣势三、索引分类和建索引命令语句四、索引结构与检索原理五、哪些情况适合索引六、哪些情况不适合索引MySQL索引一、什么是索引官方定义:索引(index)是帮助MySQL高效获取数据的数据结构。本质:索引是一种数据结构二、索引优势和劣势三、索引分类和建索引命令语句四、索引结构与检索原理五、哪些情况适合索引六、哪些情况不适合索引...

2020-04-06 22:05:08 145

转载 关系型数据库中主键(primary key)和外键(foreign key)的概念。

刚接触关系型数据库的同学,会听过主键和外键的概念。这是关系型数据库的基本概念,需要清楚理解。今天我就以简洁的语言总结一下这个概念。主键。一句话概括:一张表中,可以用于唯一标识一条记录的字段组(或者说是属性组)。给你一个主键的值,你就可以找到一条确定的记录。如:学生表:学号,姓名,性别,课程。这里学号就是主键。给你一个学号,就可以找到一条学生记录。课程表:课程编号,课程名称,学分。这里课程编号就...

2020-04-06 17:23:56 2079

原创 HiveSQL基础

文章目录HiveSQL一、HiveSQL与传统SQL的区别二、MapReduce的工作流程基础语法一、基础select(与SQL一样)+分区二、group by三、order by四、执行顺序常用函数一、如何把时间戳zhuanHiveSQL一、HiveSQL与传统SQL的区别存储位置上:hivesql存储在hdfs上,传统SQL存储在块设备或者本地文件中数据格式:hiveSQL的数据格式...

2020-04-01 15:50:45 798

原创 Hive基础

文章目录Hive基础一、hive是什么?——数据仓库二、hive与mysql的区别三、Hive的优势四、Hive的数据类型基本数据类型复杂数据类型五、Hive数据定义与操作(重点)数据库相关操作1 创建数据库2 查看数据库信息3 删除数据库4 修改数据库数据表相关1 创建数据表2 查看数据表结构3 内部表与外部表的区别4 修改表5 删除表6 清空表7 分区表8 数据的导入与导出Hive基础首...

2020-04-01 10:01:59 260

原创 机器学习-树模型(Boosting)相关问题:极限梯度提升树XGBoost

文章目录XGBoost一、梯度提升树1.1 基评估器的个数(超参数)1.2 自助抽样:有放回的随机抽样1.3 迭代决策树XGBoost一、梯度提升树XGBoost的基础是梯度提升算法,因此我们必须先从了解梯度提升算法开始。梯度提升(Gradient boosting)是构建预测模型的最强大技术之一,它是集成算法中提升法(Boosting)的代表算法。集成算法通过在数据上构建多个弱评估器,汇总...

2020-03-29 22:21:29 1934

原创 34道经典SQL试题(完结附create原数据)

文章目录MySQL练习题数据表代码第一题:取得每个部门最高薪水的人员名称MySQL练习题数据表代码drop table if exists dept;drop table if exists salgrade;drop table if exists emp; create table dept( deptno int(10) primary key, dname varch...

2020-03-28 23:12:42 2291

转载 梯度提升树原理(转载)

转载:https://www.cnblogs.com/pinard/p/6140514.html

2020-03-28 10:58:13 203 1

原创 机器学习-树模型(Boosting)相关问题:梯度提升树GBDT

文章目录梯度提升树GBDT一、Boosting 算法二、前向分步算法三、GBDT算法GBDT的正则化GBDT的优缺点梯度提升树GBDT一、Boosting 算法Boosting 是一族可将弱学习器提升为强学习器的算法.这族算法的工作机制类似:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布...

2020-03-27 22:39:06 450

原创 数据结构与算法-树(六):剑指offer-二叉树的镜像

文章目录二叉树的镜像题目解析二叉树的镜像题目操作给定的二叉树,将其变换为源二叉树的镜像。解析# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = None...

2020-03-27 17:06:30 139

原创 数据结构与算法-树(五):剑指offer-从上打印二叉树

文章目录从上打印二叉树题目解析从上打印二叉树题目从上往下打印出二叉树的每个节点,同层节点从左至右打印。解析用一个临时数组存储需要打印的节点,[8,6,10]# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# self.val = x# self.left = ...

2020-03-27 16:55:03 149

原创 数据结构与算法-树(四):剑指offer-树的子结构

文章目录树的子结构题目解析树的子结构题目输入两棵二叉树A,B,判断B是不是A的子结构。(ps:我们约定空树不是任意一个树的子结构)解析本题全程使用递归,因为要遍历树嘛,第一反应就可能需要递归来解决。那怎么解决呢?两点:第一点:A树从上到下遍历,看有没有两棵树的根节点的值相同第二点:如果在某一个位置上,两棵树的根节点值相同,判断这个根节点往下,是否有相同的树结构。注意是先判断有没有...

2020-03-27 15:58:58 121

原创 数据结构与算法-树(三):剑指offer-重建二叉树

文章目录重建二叉树一、题目二、解析重建二叉树一、题目输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建二叉树并返回。二、解析自己想一下不用程序该怎么重建二叉树:首先前序序列中可以找到根节点root=1,这个1是根节点...

2020-03-27 10:31:51 137

原创 机器学习-树模型(Bagging)相关问题:随机森林

文章目录随机森林集成学习随机森林叙述随机森林之前先看一下什么是集成学习集成学习集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合的结果,以此来获取比单个模型更好的回归或分类表现。多个模型集成成为的模型叫做集成评估器,组成集成评估器的每个模型都叫做基评估器。通常有三类集成算法:装袋法(Bagging),提升法(Boosting)和stacking。装袋法(bagging)的核心...

2020-03-26 19:44:37 833

原创 数据库练习——leetcode(196):删除重复的邮箱(delete not in)

文章目录删除重复的邮箱一、题目二、解析删除重复的邮箱一、题目二、解析可以先找到独特的ID,然后从原表中将不在独特ID中的数据删除注意要将独特的ID生成一个临时表,否则会报错因为对于SQL里删除这个操作而言 要求查询条件里不能有删除的那个表 就是删除Person表时person表不能出现在where条件里 防止出现递归删除或死循环 所以需要在外面套一层临时表t解决这个问题dele...

2020-03-26 11:51:34 246

转载 详解stacking过程(转载)

stacking:stacking是一种分层模型集成框架。以两层为例,第一层由多个基学习器组成,其输入为原始训练集,第二层的模型则是以第一层基学习器的输出作为特征加入训练集进行再训练,从而得到完整的stacking模型。stacking的方法在各大数据挖掘比赛上都很风靡,模型融合...

2020-03-24 14:25:08 800

原创 机器学习算法总结-树模型相关问题(一):决策树(ID3,C4.5,CART)

文章目录决策树一、特征选择1、不纯度2、分枝策略二、决策树生成ID3 C4.5 与CART树三、决策树的剪枝决策树决策树主要包含三个过程:特征选择、决策树生成和决策树剪枝两个核心问题:- 如何从数据表中找出最佳节点和最佳分枝; - 如何让决策树停止增长,防止过拟合一、特征选择特征选择是当你构建树的过程中,根节点如何选择,你要选择哪个特征进行分枝。1、不纯度决策树的每个叶子结点中都会包...

2020-03-24 10:52:51 854

原创 数据库练习——leetcode(185):部门工资前三高的员工(骚操作,选取每个部门前三名的工资)

文章目录部门工资前三高的员工题目解析部门工资前三高的员工题目解析第一步:找到每部门前三名的工资,注意可以有的部门前三名的工资人数不足三个,当然也有可能多于3,该怎么解决,当时我看答案清一色的3>count,我也是一脸蒙蔽,看了多家的解析才看懂,对于我这种小白也是一大挑战了。select e1.Salary from Employee as e1 where 3 > (se...

2020-03-23 22:15:29 418

原创 数据库练习——leetcode(184):部门工资最高的员工(in的骚操作:两个字段竟然也可以用in)

文章目录部门工资最高的员工题目解析部门工资最高的员工题目解析第一步:在emploee表中找到最大的工资以及部门ID,这样做的好处是可以避免有多个人工资都最高第二步:内连接后,查找题上给定的字段,条件是工资与ID在第一步查找的表中第一步SELECT DepartmentId, MAX(Salary)FROM EmployeeGROUP BY Departmen...

2020-03-23 21:10:27 220

原创 数据结构与算法-树(二):剑指offer-树的遍历

文章目录树的遍历一、树的结构二、深度优先与广度优先遍历1、先序中序后序遍历的递归实现2、非递归方式实现遍历树的遍历一、树的结构实现树的结构'''值:val两个指针:left,right二叉树中叶子结点的左右节点都为None''''''值:val两个指针:left,right二叉树中叶子结点的左右节点都为None'''class TreeNode(object): ...

2020-03-23 20:05:09 172

转载 数据结构与算法-位运算(一):原码、反码与补码详解(转载)

本篇文章讲解了计算机的原码, 反码和补码. 并且进行了深入探求了为何要使用反码和补码, 以及更进一步的论证了为何可以用反码, 补码的加法计算原码的减法. 论证部分如有不对的地方请各位牛人帮忙指正! 希望本文对大家学习计算机基础有所帮助!   一. 机器数和真值 在学习原码, 反码和补码之前, 需要先了解机器数和真值的概念. 1、机器数 一个数在计算机中的二进制表示形式...

2020-03-22 11:43:22 437

HiveSQL基础1.pdf

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive是十分适合数据仓库的统计分析和Windows注册表文件。

2020-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除