二三TP-CSDN博客

原创搜排相关模型

目录BertBertNLP必读：十分钟读懂谷歌BERT模型

2022-05-18 16:33:34 291

原创搜索系统学习

目录参考链接参考链接从零开始的搜索系统学习笔记

2022-05-16 15:25:10 283

原创数据处理相关

目录HadoopScalaHadoop1.0 Hadoop 教程ScalaScala教程

2022-05-16 15:21:28 260

目录VimCatawksedVim精通 VIM ，此文就够了Linux vi/vimCatLinux cat命令详解cat命令的13个用法awkAWK 是一种处理文本文件的语言，是一个强大的文本分析工具。之所以叫 AWK 是因为其取了三位创始人 Alfred Aho，Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符。Linux awk 命令sedLinux sed 命令是利用脚本来处理文本文件。sed 可依照脚

2022-05-16 15:18:59 331

原创 2022算法秋招总结

目录写在前面介绍预热 6月以前复习 6-7月牛客SP专场提前批缓冲期正式批谈薪工具写在前面秋招是各位都要经历的一个重大人生节点，有的人顺利，有的人坎坷。从结果来看，大家都能找到还不错的工作，只不过是能不能达到你心理预期的事情了。但是，秋招过程中，除了自己的努力，运气起到了不可忽视的作用，运气好的时候一路过关斩将收获offer，运气不好可能很长一段时间颗粒无收。可能前两面都非常顺利，到了下一面突然遇到个疯狂怼人的面试官，你就凉了；可能你自认为面试非常成功，面试官也全程笑呵呵，然后扭头就给你挂了。所以

2021-08-30 17:16:56 985 1

原创面试经历记录~

目录奇虎360牛客SP专场 6.23投递笔试 7.3下午一面 2021-0709 16:45 40min奇虎360牛客SP专场 6.23投递笔试 7.3下午7.4 24:00前完成即可一面 2021-0709 16:45 40min使用的牛客视频面试，这个部门做nlp的好像。。。好多问题人家都没法问，问了我也不会哈哈哈，感觉可能会因为不match给我拒掉。第一次记录，稍微多吐槽点东西自我介绍自我介绍这块还是没太把握好详细程度，在介绍毕设和项目的时候有点太细致了，人家让我说的粗略点，我就把大

2021-07-09 20:55:39 4101

原创机器学习主要知识点整理

目录第一章绪论第二章模型评估与选择1.评估方法2.评估指标3.泛化误差期望 = 偏差+方差+噪声4.归一化5.正则化Q：L1比L2更稀疏（1）梯度值（2）先验概率（3）等高线图形方法（4）函数叠加方法Q：为什么权重变小可以缓解过拟合6.过拟合与欠拟合（1）降低过拟合：（2）降低欠拟合：第三章线性模型1.线性模型的优点2.一元线性回归3.多元线性回归4.对数几率回归（LR）（1）二分类，广义线性模型，用Sigmoid（2）优点（3）缺点（4）对数损失函数==极大似然函数取对数（5）极大似然法求解w和b

2021-07-09 11:21:59 5563

原创常见算法汇总

常见算法文章目录常见算法排序算法冒泡排序选择排序插入排序希尔排序归并排序快速排序堆排序计数排序桶排序基数排序图算法有向图中的环及元素迪杰斯特拉算法弗洛伊德算法二叉树遍历前序遍历中序遍历后序遍历字符串匹配Sunday算法并查集手写代码梯度下降K-means逻辑回归-numpy逻辑回归-pytorch训练排序算法排序方法时间复杂度（平均）时间复杂度（最坏）时间复杂度（最好）空间复杂度稳定性冒泡排序O(n2)O(n^2)O(n2)O(n2)O(n^2)O(n2)O(n)O(

2021-07-01 16:23:06 894

原创常用算法整理

目录二分搜索二分搜索二分搜索的经典写法（默认元素从小小到大排列）。需要注意的三点：循环退出条件，注意是low，high初始化都是可选范围内的最left和最right的数，且low <= high，而不是 low < high。mid 的取值，mid := low + (high-low)>>1low 和 high 的更新。low = mid + 1，high = mid - 1。func binarySearchMatrix(nums []int, target i

2021-06-07 22:33:21 203

原创机器学习研讨班记录

第一章AUC的计算方式2.5 偏差方差定义和计算需要看一下

2021-05-20 21:12:06 179

原创机器学习学习笔记 -（总览）

目录决策树ID3C4.5CART(classfication and regression tree, 分类与回归树)决策树决策树的三个重点：特征选择、构造决策树、决策树的修剪三种决策树：ID3、C4.5、CARTID3特征选择的方法是信息增益信息增益越大表示使用这个特征来划分所获得的纯度提升越大缺点：ID3 没有剪枝策略，容易过拟合；信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于 1；只能用于处理离散分布的特征；没有考虑缺失值。C4.

2021-04-28 17:05:19 542

原创四刷剑指offer

目录前言剑指Offer11.旋转数组的最小数字前言经过面试发现一点很重要的问题，在面试的时候挺多时候考的就是手撕算法原题，这个时候需要注意两点：不能表现出是死记硬背，而是有思考过程，知道每一步是为什么要死记硬背。。。或者说对代码非常熟悉，在面试的时候能把所有细节都正确写出来才可以，面试官很强，知道重点是什么，也知道你代码写出来之后对不对，如果你记得不熟，就会出现问题，又不能运行调试，现看很难发现问题。剑指Offer11.旋转数组的最小数字这个题，反复看了很多次了，这次基本上算是自己做出来了

2021-04-20 13:31:45 598

原创机器学习知识点整理

1. 感知机算法面试问题汇总2. SVM算法面试问题汇总（机器学习必考）3. 决策树算法面试问题汇总4. 逻辑回归(LR)算法面试问题汇总5. KNN算法面试问题汇总6. 集成学习（bagging、boosting、GBDT）算法面试问题汇总7. 朴素贝叶斯算法面试问题汇总...

2021-04-12 19:22:06 186

原创西瓜书学习笔记第7章贝叶斯分类器

目录参考文献参考文献https://zhuanlan.zhihu.com/p/242652158

2021-04-12 10:37:55 181

原创百面机器学习读书笔记第三章经典算法

目录支持向量机参考文献支持向量机参考文献百面机器学习｜第三章经典算法知识点 https://www.jianshu.com/p/35285f01cc8e

2021-04-08 21:02:36 206

原创百面机器学习读书笔记第二章模型评估

目录模型评估评估模型的局限性ROC曲线余弦距离的应用A/B测试的陷阱模型评估的方法超参数调优过拟合与欠拟合参考文献模型评估评估模型的局限性准确率(Accuracy)：分类正确的样本占总样本个数的比例。当不同类别的样本比例非常不均衡时，将准确率作为分类性能的指标非常局限，可以使用更加有效的平均准确率(每个类别下的样本准确率的算数平均)作为模型评估的指标。精确率和召回率的权衡- 精确率(Precision)：分类正确的正样本个数占分类器判定为正样本个数的比例。- 召回率(Recall)：分

2021-04-07 21:42:45 301

原创百面机器学习读书笔记第一章特征工程

目录特征工程特征归一化类别型特征特征工程本质上来讲，是一个表示和展现数据的过程。在实际工作中，特征工程旨在去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。结构化数据。可以看作关系型数据库的一张表，每一列都有清晰的定义，包含数值型、类别型两种基本类型；每行表示一个样本的信息。非结构化数据。主要包括文本、图像、音频、视频数据，其包含的信息无法用一个简单的数值表示，也没有清晰的类别定义。并且每条数据的大小各不相同。特征归一化目的：消除数据特征之间的量纲影响，使

2021-04-06 19:10:27 175

原创【剑指offer 三刷】问题反复

目录剑指Offer11.旋转数组的最小数字剑指Offer11.旋转数组的最小数字裂开，这题的二分怎么这么烦。。。比小的那边好像就不对的样子？？？

2021-03-31 20:19:51 407

原创西瓜书学习笔记第6章支持向量机

目录第6章支持向量机第6章支持向量机

2021-03-17 16:05:41 361

原创【剑指offer 二刷】问题整理

目录剑指Offer11.旋转数组的最小数字这是二刷时候遇到问题的题目，只要感觉不太对了就记录在这里。剑指Offer11.旋转数组的最小数字

2021-03-09 22:57:18 270

原创大顶堆、并查集、单调栈（算法题里面这几个类型的还搞不明白）

目录堆并查集单调栈大顶堆、并查集、单调栈这几个类型的题目目前还搞不明白，需要反复钻研，现在做一个总结记录。（短期内集中攻坚）堆并查集单调栈

2021-03-09 21:41:35 252

原创【算法】LeetCode 热题 HOT 100 整理

目录23.合并K个升序链表这里没太多花里胡哨的了，暂时就是把做过的值得记录的题整理一下。23.合并K个升序链表这个题。。你说它是hard吧，我觉得并不没达到，但你说不是hard吧，我自己做还真没AC，一直在超时，用了优先队列之后才成功AC，排在88%左右。所以这个题主要是为了记录一下优先队列的这个概念，以及使用方式。不过首先还是说一下题目思路，一下有几种题解：每次合并两个链表，对于k个链表，合并k-1次每次合并两个链表，对于k个链表，合并log2klog_2klog2k次优先队

2021-03-05 18:14:34 3093

原创面试算法题类型总结

目录算法数据结构参考文献算法排序算法：快速排序、归并排序、计数排序搜索算法：回溯、递归、剪枝技巧图论：最短路、最小生成树、网络流建模动态规划：背包问题、最长子序列、计数问题基础技巧：分治、倍增、二分、贪心数据结构数组与链表：单、双向链表、跳舞链栈与队列树与图：最近公共祖先、并查集哈希表堆：大、小根堆、可并堆字符串：字典树、后缀树每个类型中的题目和链接见参考文献，知乎回答中leetcode已经给列出了重要类型的部分题目。参考文献https://www.zhihu.co

2021-03-02 18:05:20 282

原创西瓜书学习笔记第4章决策树

目录第4章决策树4.1 基本流程4.2 划分选择4.2.1 信息增益4.2.2 增益率4.2.3 基尼指数4.3 剪枝处理4.4 连续与缺失值4.4.1 连续值处理4.4.2 缺失值处理4.5 多变量决策树参考文献第4章决策树4.1 基本流程决策树（Decision Tree）：一类常见的机器学习方法。决策树学习的目的是为了产生一颗泛化能力强，即处理未见事例能力强的决策树。基本流程遵循分治策略（Divide and Conquer），是一个递归的过程。在该算法中，有三种情形会导致递归返

2021-02-24 13:59:05 391

原创西瓜书学习笔记第3章线性模型

目录第3章线性模型3.2 线性回归（Linear Regression）3.3 对数几率回归3.4 线性判别分析参考文献本文仅针对个人不熟知识点进行整理，已知内容或过于简单的就不整理了。第3章线性模型3.2 线性回归（Linear Regression）基于均方误差最小化来进行模型求解的方法称为“最小二乘法”在x只有一个属性的情况下进行求解（推导过程）：对于多个属性的情况，即多元线性回归，常常使用矩阵的形式来表示数据以及分析。在本问题中，将具有m个样本的数据集表示成矩阵X，将系数w与b合

2021-02-22 16:38:28 321

原创西瓜书学习笔记第2章模型评估与选择

目录第2章模型评估与选择2.2 评估方法2.2.1 留出法2.2.2 交叉验证法2.2.3 自助法2.3.2 查准率与查全率2.3.3 ROC与AUC2.3.4 代价敏感错误率与代价曲线2.4 比较检验参考文献本文仅针对个人不熟知识点进行整理，已知内容或过于简单的就不整理了。第2章模型评估与选择2.2 评估方法模型选择（Model Selection）问题：应该选用那种学习算法，使用哪一种参数配置？理想解决方案当然是对候选模型的泛化误差进行评估然后选择泛化误差最小的那个模型。为了对泛化误差进行

2021-02-22 12:04:28 566

原创西瓜书学习笔记第1章绪论

目录第1章绪论本文仅针对个人不熟知识点进行整理，已知内容或过于简单的就不整理了。第1章绪论假设空间：所有假设组成的空间版本空间：现实问题中我们常面临很大的假设空间，但学习过程是基于有限样本训练集进行的，因此，可能有多个假设与训练集一致，即存在着一个与训练集一致的假设集合，我们称之为版本空间 (version space)。也就是说这多个假设的集合就是假设集合，称为版本空间归纳偏好 (简称"偏好")：机器学习算法在学习过程中对某种类型假设的偏好。奥卡姆剃刀：若有多个假设与

2021-02-08 21:56:05 210

原创百面机器学习读书笔记

参考文献https://www.jianshu.com/c/90223df0f45c

2021-01-28 14:46:08 141

原创分治

目录基本概念例题面试题35“复杂链表的复制”面试题36“二叉搜索树与双向链表”面试题38“字符串的排列”基本概念把大问题分解成若干个简单的小问题，然后再逐个解决这些小问题。可以按照解决问题的步骤来分解复杂问题，每一步解决一个小问题。例题面试题35“复杂链表的复制”抖个机灵：class Solution: def copyRandomList(self, head: 'Node') -> 'Node': from copy import deepcopy

2021-01-06 20:59:33 353 3

原创位运算

目录基本概念运算方式例题基本概念位运算是把数字用二进制表示之后，对每一位上0或者1的运算。讲个笑话：世界上有10种人，一种人知道二进制，而另一种人不知道二进制……运算方式与或异或左移左移运算符 m<<nm << nm<<n 表示把 mmm 左移 nnn 位。在左移 nnn 位的时候，最左边的 nnn 位将被丢弃，同时在最右边补上 nnn 个0右移右移运算符 m>>nm >> nm>>n 表示把 mmm 右移 nn

2020-12-24 19:47:46 294 1

原创回溯法

目录基本概念例题基本概念回溯法可以看成蛮力法的升级版，它从解决问题每一步的所有可能选项里系统地选择出一个可行的解决方案。回溯法非常适合由多个步骤组成的问题，并且每个步骤都有多个选项。用回溯法解决的问题的所有选项可以形象地用树状结构表示。例题面试题12“矩阵中的路径”面试题13“机器人的运动范围”...

2020-12-17 19:44:13 120

原创查找和排序

目录基本概念查找排序例题二分查找二叉搜索树基本概念查找顺序查找、二分查找、哈希表查找和二叉排序树查找排序插入排序、冒泡排序、归并排序、快速排序比较优缺点：额外空间消耗、平均时间复杂度和最差时间复杂度快速排序：先在数组中选择一个数字，接下来把数组中的数字分为两部分，比选择的数字小的数字移到数组的左边，比选择的数字大的数字移到数组的右边。例题二分查找面试题11“旋转数组的最小数字”顺序查找是最简单的办法，O(n)O(n)O(n)，但还能提升。类似于二分查找，如果中间那个数比开头小

2020-12-16 22:49:23 500

原创递归和循环

目录基本概念例题递归和循环的性能区别用递归分析问题并基于循环写代码基本概念递归：在一个函数的内部调用这个函数自身循环：通过设置计算的初始值及终止条件，在一个范围内重复运算。通常递归的代码会比较简洁，但效率低，且很多计算都是重复的。例题递归和循环的性能区别面试题10 - I “斐波那契数列”递归方法的中间结果都重复计算了，所以效率地下。循环方法就很简单，O(n)O(n)O(n) 。面试题10 - II“青蛙跳台阶问题”如果要用递归方法，一定要保存中间计算结果，可以用个diction

2020-12-16 21:10:25 247

原创栈和队列

目录基本概念例题栈队列栈和队列相互联系基本概念栈的特点是后进先出，即最后被压入（push）栈的元素会第一个被弹出（pop）。队列的特点是先进先出，即第一个进入队列的元素将会第一个出来。通常栈是一个不考虑排序的数据结构，我们需要 O(n)O(n)O(n) 时间才能找到栈中最大或者最小的元素。例题栈进栈和出栈序列的特点：面试题31“栈的压入、弹出序列”O(1)O(1)O(1) 时间内得到栈的最大值或者最小值面试题30“包含min函数的栈”队列面试题32 - I“从上到下打印二叉树

2020-12-16 17:05:17 223

原创链表

目录基本概念例题单向链表例题1环形链表双向链表基本概念链表是面试时被提及最频繁的数据结构。链表的结构很简单，它由指针把若干个节点连接成链状结构。链表是一种动态数据结构，因为在创建链表时，无须知道链表的长度。由于没有闲置的内存，链表的空间效率比数组高。链表的内存不是一次性分配的，所以链表的内存不是和数组一样连续。因此寻找某个节点 iii 的时间效率为 O(n)O(n)O(n)。例题单向链表例题1面试题6“从头到尾打印链表”简单方法：翻转链表不能改变结构：使用栈。递归

2020-12-16 09:02:24 510 1

原创树

目前还没做到树这一专题，在leetcode上看到有人总结的，先存一下参考链接1. https://leetcode-cn.com/circle/article/WTT5Yy/

2020-11-26 13:30:55 194

原创动态规划

目录第一种常规背包问题及其变体第二种无容量的问题及其变体参考链接动态规划中有n种常见类型，基本思想以背包问题为基础m容量 n种物品 weight重量 value价值第一种常规背包问题及其变体建立 dp[n][m]dp[n][m]dp[n][m] 的数组，保存使用前n种物品在容量为m 的情况下的最大价值判断条件：小于最大容量，也就是背包装得下例题：474. 一和零这道题稍微有点不一样是有两个容量，因此在建立数组的时候变成了 dp[n][m1][m2]dp[n][m_1]

2020-11-25 21:03:54 170 1

weixin_37779325的博客