自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大锅八十小锅四十

伪数据挖掘,伪机器学习,通信狗转cs汪一只,https://tinkle1129.github.io/

原创 机器学习面试题

平时想到啥就记下来,慢慢补。 算法笔试复习性能度量(模型评价) 优化算法 Logistic Regression 决策树 支持向量机 贝叶斯分类器 聚类算法 Boosting、Bagging和Stacking EM算法 过拟合、欠拟合、正则化内容来源 机器学习面试1000题 李航《统计学习方法》 周志华《机器学习》 《Hands-On Machine Learn...

2018-01-18 10:42:12 465 7

原创 一些有用的技巧

不定期分享一些有用的技巧,包括但不限于工具、生活、健身mac + iterm2 自动ssh登录alias

2019-07-29 09:43:48 63

原创 Python一些小笔记

办公PC和个人PC一个用py3,一个用py2,统一起来很烦,目前主要代码还是用py2来编写,未来要修改成py3的版本,任重道远。。。除法python2结果:取整数部分,小数并没有保留python3结果:得到真实结果,小数保留# python2print(123456/11)11223# python3print(123456/11)11223.272727272728pr...

2019-07-01 11:47:54 100

原创 tensorflow 一些小笔记

最近因为工作原因,需要用到tensorflow,对于我这个没搞过深度学习的菜鸟来说,tensorflow实在是。。。。挺好用的。开个贴记录一些使用方法。我的记性不好, 只能烂笔头了。tf.stacktf.concat>>> import tensorflow as tf>>> a = [1,2,3]>>> b = [4,5,6]...

2019-06-28 10:46:29 108

原创 深度学习CTR模型读书笔记-阿里十亿级商品嵌入方法

论文连接:Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba摘要:阿里推荐系统的三大挑战,可扩展性(scalability),稀疏性(sparsity)和冷启动(cold start)。首先通过用户历史行为构建item graph,并在graph上学习item的embedding,这个embed...

2019-06-23 17:21:22 301

原创 深度学习CTR模型粗略记录

这里写自定义目录标题FM:Factorization MachinesDNN:Embedding+MLPWND:Wide & Deep Learning for Recommender SystemsNFM:Neural Factorization Machines for Sparse Predictive AnalyticsAFM: Attentional Factorization ...

2019-06-14 18:11:58 302 1

原创 Leetcode String 知识点总结

551. Student Attendance Record I:一堂课不合格的条件是:两次及以上的缺席(‘A‘)或连续三次的迟到(‘L‘),给定一个字符串,求该学生是否合格,Easyclass Solution(object): def checkRecord(self, s): """ :type s: str :rtype:...

2018-05-25 11:56:05 430

原创 Leetcode Tree 知识点总结

95. Unique Binary Search Trees II:返回由[1,2,…,n]组成的所有二叉搜索树的列表,Medium. 思路:先确定root,在递归获取root.left和root.right # Definition for a binary tree node.# class TreeNode(object):# def __init__...

2018-05-16 14:02:55 411

原创 Leetcode Array 知识点总结

832. Flipping an Image:将数据先水平翻转,再01交换,返回数据。Easyclass Solution(object): def flipAndInvertImage(self, A): """ :type A: List[List[int]] :rtype: List[List[int]] "...

2018-05-16 10:42:26 250

原创 树模型特征重要性评估方法

前言在特征的选择过程中,如果学习器(基学习器)是树模型的话,可以根据特征的重要性来筛选有效的特征。本文是对Random Forest、GBDT、XGBoost如何用在特征选择上做一个简单的介绍。各种模型的特征重要性计算Random Forests袋外数据错误率评估 RF的数据是boostrap的有放回采样,形成了袋外数据。因此可以采用袋外数据(OOB)错误率进行特征重要...

2018-05-07 21:28:33 7251 3

原创 Leetcode Shell 编程

195. Tenth Line:显示文件第10行的内容,Easysed –help;查看具体使用规则: sed -n ‘xp’ filename;显示文件X行命令: sed -n ‘x,yp’ filename;显示文件X行到Y行的内容: 193. Valid Phone Numbers:匹配有效的电话号码形式,Medium 脱字符^匹配开头,美元字符$匹配结...

2018-04-23 11:17:17 181

原创 Leetcode Hash Table知识点总结

454. 4Sum II:求满足A[i]+B[j]+C[k]+D[l] = 0的 (i,j,k,l)个数,Medium http://bookshadow.com/weblog/2016/11/13/leetcode-4sum-ii/ 利用字典cnt,将A,B中各元素(笛卡尔积)的和进行分类计数。 将C,D中各元素(笛卡尔积)和的相反数在cnt中的值进行累加,即为答案。...

2018-04-22 11:19:30 206

原创 Leetcode Binary Search 知识点总结

744. Find Smallest Letter Greater Than Target:返回目标字母target插入到有序字母列表letters后下一个字母,如果target无下一个字母,则返回letters[0],Easy 二分插入 index = bisect.bisect(letters, target) return letters[index % len(l...

2018-04-22 11:07:06 244

原创 Leetcode TwoPointer知识点总结

344. Reverse String:字符串转置,Easy 定义头尾指针,调换对应的字符 class Solution(object): def reverseString(self, s): """ :type s: str :rtype: str """ s = list(s...

2018-04-18 15:10:08 302

原创 Leetcode Array知识点总结

804. Unique Morse Code Words:统计单词翻译成摩斯电码后摩斯电码的个数,Easy set class Solution(object): def uniqueMorseRepresentations(self, words): """ :type words: List[str] :rtype...

2018-04-18 09:46:49 169

原创 Leetcode DFS知识点总结

Depth-first-search104. Maximum Depth of Binary Tree:求树的最大深度, Easyclass Solution(object): def maxDepth(self, root): """ :type root: TreeNode :rtype: int """ ...

2018-04-07 12:44:15 1294 1

原创 LS-PLM学习笔记

论文链接 Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction 首先介绍了传统的解决方案和局限性 (1)LR不能捕捉非线性 (2)GBDT+LR虽然能够产生非线性特征组合,但是树模型不适用于超高维稀疏数据 (3)FM利用二阶信息来产生变量之间的相关性,但是无法适应多阶模式 LS-P...

2018-04-02 15:44:54 1754

原创 过拟合、欠拟合、正则化

过拟合和欠拟合产生原因 欠拟合:模型学习能力不足(太简单),无法学习到数据的真实分布,即模型的期望输出和真实输出之间有很大的差异,高偏差。过拟合:模型学习能力过分(太复杂),因噪声干扰等因素导致数据的分布有轻微的波动,但是模型也学习到了,导致模型的训练结果得到的数据分布过分依赖于所输入的数据,高方差。从模型泛化程度上理解,欠拟合的模型在训练集和测试集上表现不足,而过拟合的模型尽管在训练...

2018-03-26 09:51:44 653

原创 集成学习专题之GBDT面试

题目和答案来自于网络,相关链接已贴。 春招不易,且学且珍惜~Q1:GBDT的算法流程? A:GBDT是通过采用加法模型(基函数的线性组合),不断减小训练过程产生的残差来达到将数据分类或者回归的算法。针对一般损失函数优化困难问题,利用损失函数的负梯度在当前模型的值作为残差的近似值进行求解。Q2:GBDT如何选择特征?(CART Tree中的特征选择方法) A:遍历每个特征,然后对每个特...

2018-03-24 21:17:08 1923

原创 Leetcode Math知识点总结

728. Self Dividing Numbers:返回[left,right+1]区间内所有自分数的列表(自分数即该数%各位上的数=0,含0的数不是自分数), Easyclass Solution(object): def selfDividingNumbers(self, left, right): """ :type left: int...

2018-03-22 16:05:56 276

转载 机器学习面试题整理

持更中。。。(最近电脑卡得要死) 主要focus在场景题上一、2015百度校招笔试题 (1)垃圾邮件分类问题 1. 垃圾邮件分类特征? 2. 训练集中99%非垃圾、1%垃圾,训练模型视为100%非垃圾,准确率?召回率? 3. 在实际的应用场景中,尽可能地找回垃圾邮件,应该怎么办? (2)求元素之和最大的子数组 (解答:dp) (3)从字符串流中随机选择一个字符串 【从字符串流中...

2018-03-20 14:16:05 155

原创 算法专题训练(3)回文字符串

516. Longest Palindromic Subsequence:求字符串中最大回文子串(不一定连续)的最大长度 将s翻转成s1 求s和s1的最长公共子序列长度 可以先判断下s是否是回文 另外一个思路 dp[i][j] = dp[i + 1][j - 1] + 2 if s[i] == s[j] dp[i][j] = max(dp...

2018-03-17 21:23:07 142

原创 八大排序算法

参考 理了一下八大排序(to do list好多年终于填掉了) 人是真的要锤大锤打才能成长起来哇~ 舍友过生日,先撤了~# - * - coding:utf8 - * - -'''@Author : Tinkle G@Creation Time: 2018/03/16'''class Solution(object): ########################...

2018-03-16 20:46:15 168

原创 算法专题训练(2)小偷问题

198. House Robber:小偷不能偷相邻的房子,求最大收益class Solution(object): def rob(self, nums): size = len(nums) if size == 0: return 0 if size <=2: return max(nums) Values =...

2018-03-13 21:00:26 1456

原创 Leetcode 动态规划知识点总结

来看下Leetcode中Tag为Dynamic Programming的题目股票买卖系列小偷光顾房子系列斐波那列序列及其变种70. Climbing Stairs:爬山问题,Easy dp[i] = dp[i-1]+dp[i-2]746. Min Cost Climbing Stairs:爬山问题,需要支付cost[i]费用,Easyclass Sol...

2018-03-13 20:42:53 200

原创 算法专题训练(1)股票问题

121. Best Time to Buy and Sell Stock:股票一次买入卖出,求最大利润class Solution(object): def maxProfit(self, prices): if prices == []: return 0 minNum,ret = prices[0],0 for p in pr...

2018-03-10 11:04:15 374

原创 Leetcode 栈知识点总结

来看下Leetcode中Tag为Stack的题目[Leetcode 739] Daily Temperatures:求下一个温暖天气距离当前日期的时间差。Mediumclass Solution(object): def dailyTemperatures(self, temperatures): """ :type temperatures...

2018-03-07 09:06:39 480

原创 Leetcode 递归知识点总结

自古套路留人心,发现自己对递归这块掌握的真的是“感人肺腑“(最近的语文水平断崖式下跌哎)来看下Leetcode中Tag为Recursion的题目 [Leetcode 687] Longest Univalue Path:给定二叉树,求节点值全部相等的最长路径。路径不一定要通过树根。Easy# Definition for a binary tree node.# clas...

2018-03-06 11:26:18 579

原创 性能度量(模型评价)

分类结果混淆矩阵 ——预测 预测 正例 TP FN 反例 FP TN 准确率: acc = (TP+FP)/(TP+TN+FP+FN) 查准率或精度Precision: P=(TP)/(TP+FP) 查全率或者灵敏性或者召回率Recall: R=(TP)/(TP+FN) P-R曲线:横坐标为P,纵坐标为R,平衡点BEP满足P=R的取...

2018-03-05 21:39:19 215

原创 Leetcode 位运算知识点总结

一个颇有好感的爱豆今天入伍了,人品和才华都没的说,但是因为这样或那样的原因,最终不得已提前进了部队,挺心疼他的。明年年底见吧。 昨天刷B站,看到国内一个练习生选秀节目中舞蹈导师批评国内练习生各种借口各种不努力,不禁感慨国内娱乐圈来钱太容易了。韩国爱豆生存压力大,每年出道的团很多,但是最后活下来的就那么几个。所以为了成功,他们需要不断努力不停练习,最终的表现和国内高下立判。 环境是很大的一个方面...

2018-03-05 11:05:12 301

原创 Leetcode 链表知识点总结

来看下Leetcode中Tag为[ Linked-List ](https://leetcode.com/tag/linked-list/ )的题目[ 141. Linked List Cycle ](https://leetcode.com/problems/linked- list-cycle / description / ):判断一个链表是否存在环,Easy [ 142.链接列表循环II ...

2018-02-17 15:11:19 656

原创 剑指Offer题解(Python版)

二叉树的镜像链表中环的入口结点删除链表中重复的结点从尾到头打印链表斐波那契数列跳台阶变态跳台阶矩形覆盖把字符串转换成整数平衡二叉树和为S的连续正数序列左旋转字符串数字在排序数组中出现的次数数组中只出现一次的数字翻转单词顺序列二叉树的深度和为S的两个数字顺时针打印矩阵二叉树的下一个结点对称的二叉树把二叉树打印成多行按之字形顺序打印二叉树序列化二叉树二叉...

2018-02-14 17:56:18 25102 12

原创 缺失值处理知识点整理

来源《Python数据分析与数据化运营》 批注1: (丢弃)不宜采用的场景: (1)数据集总体中存在大量的数据记录不完整情况且比例较大,例如超过10%,删除这些带有缺失值的记录意味着将会损失过多有用信息。 (2)带有缺失值的数据记录大量存在着明显的数据分布规律或特征,例如带有缺失值的数据记录的label主要集中于某一类或者某积累,如果删除会导致对应的数据样本丢失大量特征信息,导致模型过...

2018-02-12 19:51:02 546

原创 优化算法知识点整理

几种优化算法,梯度下降的种类 考虑无约束优化问题 minxf(x)minxf(x)min_x f(x)梯度下降梯度下降法是一种常用的一阶优化方法,是求解无约束优化问题最简单、最经典的方法之一。其中,f(x)连续可微。若能构造一个序列x0,x1,x2,...x0,x1,x2,...x^0,x^1, x^2,...满足f(xt+1)<f(xt),t=0,1,2...f...

2018-01-25 20:55:06 271

原创 EM算法知识点整理

自己的理解 目标θ̃ =argmaxθP(Y|θ)\tilde{\theta} = argmax_\theta P(Y|\theta) 即我们要估计一个合理的θ̃ \tilde{\theta}使得P(Y|θ)P(Y|\theta)达到最大值 如果存在隐变量ZZ,我理解为ZZ是一个没有表现出来但是又是必要的一个中间态,那么P(Y|θ)P(Y|\theta)可以表示为P(Y|θ)=P(Y,Z|θ

2018-01-24 14:27:31 216

原创 笔试/机试/面试算法总结

Base 1. Leetcode Easy,Medium 2. 各厂笔试题 3. 剑指Offer题解(Python版) 感觉好多坑要填啊,嘤嘤哭泣T^T,求抱抱。

2018-01-19 14:05:54 569 3

原创 Boosting、Bagging和Stacking知识点整理

全是坑,嘤嘤哭泣= =简述下Boosting的工作原理 Boosting主要干两件事:调整训练样本分布,使先前训练错的样本在后续能够获得更多关注 集成基学习数目 Boosting主要关注降低偏差(即提高拟合能力)描述下Adaboost和权值更新公式 Adaboost算法是“模型为加法模型、损失函数为指数函数、学习算法为前向分布算法”时的二类分类学习方法。 Adaboost有两项内

2018-01-19 11:21:57 1374

原创 Logistic Regression知识点整理

Logistic RegressionLinear Regression 的原理(Logistic Regression 的基础) 目标函数 f(x)=wx+bf(x)=wx+bf(x)=wx+b 损失函数 均方误差 E=∑mi=1(f(xi)−yi)2E=∑i=1m(f(xi)−yi)2E = \sum_{i=1}^m(f(x_i)-y_i)^2 推广至多元 E=(y−wx)T(y−w...

2018-01-19 11:18:00 643

原创 深度学习知识点整理

开一个坑2.请简要介绍下tensorflow的计算图 @寒小阳:Tensorflow是一个通过计算图的形式来表述计算的编程系统,计算图也叫数据流图,可以把计算图看做是一种有向图,Tensorflow中的每一个计算都是计算图上的一个节点,而节点之间的边描述了计算之间的依赖关系。

2018-01-19 11:11:33 268

原创 聚类算法知识点整理

聚类分析能够解决的问题 数据集可以分为几类、每个类别有多少样本量、不同类别中各个变量的强弱关系如何、不同类别的典型特征是什么、基于类别划分的其他应用(如图片压缩)知识点1:Kmeans流程,时间复杂度,优缺点,影响因素,改进方法 知识点2:KNN训练边界、KNN流程、K值选择方法、应用场景 知识点3:聚类应用场景,分类,原理,评价指标 知识点4:相似性度量、距离度量 1. K...

2018-01-18 14:23:22 1511

提示
确定要删除当前文章?
取消 删除