自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (3)
  • 收藏
  • 关注

原创 Lightgbm基本原理

仅供参考:背景:XGBoost一个瓶颈是针对每个特征,它需要对每一个可能的分裂点扫描全部的样本来进行计算基尼系数,这是非常的耗时的。Lightgbm的主要特点:1.Lightfbm使用直方图算法在牺牲一定精度的条件下换取计算速度的提升和内存消耗的降低。使用了如下的两种方法:Gradient-based One-Side Sampling(GOSS):首先根据样本梯度进行排序,选择...

2019-08-16 00:23:20 1362

原创 spark wordcount

text_file = sc.textFile("hdfs://...")counts = text_file.flatMap(lambda x: x.split(" ")) \ .map(lambda x: (x, 1)) \ .reduceByKey(lambda a, b: a + b)counts.saveAsTextFile("hd

2017-10-12 22:59:14 376

原创 操作系统

进程与线程进程概念:一个具有一定独立功能的程序对某个数据集合上的一次动态执行过程和资源分配过程。进程与程序的区别与联系进程是动态的,程序是静态的。进程是暂时的,程序是永久的。进程和程序的组成不同:程序主要包含代码和数据,进程除了包含代码和数据以外,还有进程表进程概念动态性并发性独立性异步性进程的状态与转换运行状态阻塞状态

2017-10-11 16:57:52 303

原创 剑指offer 二叉树与二叉搜索树最佳解汇总 Python

面试题6: 重建二叉树输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建二叉树并返回。思路:找出中间节点后,基于递归思想实现。# -*- coding:utf-8 -*-# class TreeNode:#

2017-09-23 13:43:56 1388

原创 剑指offer 链表题最佳解汇总 Python

面试题5: 从尾到头打印链表输入一个链表,从尾到头打印链表每个节点的值。思路:方法一:class Solution:    # 返回从尾部到头部的列表值序列,例如[1,2,3]    def printListFromTailToHead(self, listNode):        l = []        # 直接遍历一遍链表保存结果到list中,再返回倒序

2017-09-22 16:58:50 773

原创 轮廓系数

假设我们已经通过一定算法,将待分类数据进行了聚类。常用的比如使用K-means ,将待分类数据分为了 k 个簇 。对于簇中的每个向量。分别计算它们的轮廓系数。对于其中的一个点 i 来说:计算 a(i) = average(i向量到所有它属于的簇中其它点的距离)计算 b(i) = min (i向量到所有非本身所在簇的点的平均距离)那么 i 向量轮廓系数就为:

2017-09-20 16:41:05 5108

转载 SQL练习 学校场景

Student(S#,Sname,Sage,Ssex)  学生表Course(C#,Cname,T#)  课程表SC(S#,C#,score)  成绩表Teacher(T#,Tname)  教师表问题:1、查询“001”课程比“002”课程成绩高的所有学生的学号;select a.S#from (select s#, score from SC where C

2017-09-19 16:57:26 598 1

原创 假设检验

H0:原假设(希望得到结果的反面)H1:备择假设 (首先确定H1,希望得到的结果)第一类错误:H0正确,却认为H0错误第二类错误:H0不正确,确认为H0正确显著性水平:犯第一类错误的概率是显著性水平,记为α。

2017-09-19 00:17:26 796

原创 机器学习之- 推荐系统

推荐系统数学定义:设C为全体用户集合,设S为全部商品/推荐内容集合,设u是评判把si推荐ci的好坏评判函数,推荐是对于c∈C,找到s∈S,使得u最大,即注意:部分场景下是Top N推荐。通俗地说,推荐系统需要:根据用户的:a)历史行为b)社交关系c)兴趣点d)所处上下文环境e)…去判断用户的当前需求/感兴趣的i

2017-09-18 20:10:56 439

原创 SQL知识点汇总(二)

SQL UNION 子句SQL UNION 子句/运算符用于将两个或者更多的 SELECT 语句的运算结果组合起来。在使用 UNION 的时候,每个 SELECT 语句必须有相同数量的选中列、相同数量的列表达式、相同的数据类型,并且它们出现的次序要一致,不过长度不一定要相同。语法UNION 子句的基本语法如下所示: SELECT column1 [, co

2017-09-18 11:20:56 498

原创 SQL知识点汇总(一)

什么是表?RDBMS 中的数据存储在被称作表的数据库对象中。表是相互关联的数据记录的集合,由一系列的行和列组成。谨记,表是关系型数据库中最常见也是最简单的数据存储形式。下面是一个客户信息表的例子: +----+----------+-----+-----------+----------+ | ID | NAME | AGE | ADDRESS | S

2017-09-17 22:45:14 755

原创 Java面试题

1. Java 中的 HashMap 的工作原理是什么?Java 中的 HashMap 是以键值对(key-value)的形式存储元素的。HashMap 需要一个hash函数,它使用 hashCode()和 equals()方法来向集合/从集合添加和检索元素。当调用 put()方法的时候,HashMap会计算 key 的 hash 值,然后把键值对存储在集合中合适的索引上。如果 key 已

2017-09-17 20:41:26 223

原创 剑指offer SQL训练

查找最晚入职员工的所有信息题目描述查找最晚入职员工的所有信息CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16) NOT NULL,`g

2017-09-16 00:17:38 794

原创 LeetCode SQL刷题全解

1. 交换性别Given a table salary, such as the one below, that has m=male and f=female values. Swap all f and m values (i.e., change all f values to m and vice versa) with a single update query and no

2017-09-15 22:57:32 25760 3

原创 详解stacking过程

翻到之前自己写的这篇博客,感觉写的还是不够简洁明了,特地回来改一下,顺便文末附上Kaggle内相关操作的代码,希望能够帮助学习的同学能够瞬间理解stacking这个概念。stacking:stacking是一种分层模型集成框架。以两层为例,第一层由多个基学习器组成,其输入为原始训练集,第二层的模型则是以第一层基学习器的输出作为特征加入训练集进行再训练,从而得到完整的stacking模型。sta...

2017-09-15 11:42:54 85752 51

原创 CART树的剪枝

CART树剪枝预剪枝控制树的深度设定基尼系数(残差)的阈值,即若当前划分特征的基尼系数(残差)小于阈值时不再对当前的特征进行划分设定样本量的阈值,样本量小于阈值不再划分后剪枝总体思路:由完全树T0开始,剪枝部分结点,得到T1,再次剪枝部分结点得到T2。。。知道仅剩树根的树Tk;通过交叉验证,对以上k个树分别评价,选择损失函数最小的数Tα具体过程:损失函数

2017-08-28 17:42:21 678

计算机网络知识汇总

包含大量计算机网络的基础内容文档,可用于备战计算机类校招的笔试

2017-10-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除