YoutiaoNo2-CSDN博客

原创 SQL笔记

SQL笔记over使用方法over使用方法rank(), row_number(), dense_rank() over (partition by a order by b) 表示按照a group by 后，对b排序加顺序号。avg(cost) over(order by orderdate rows between 3 preceeding and 3 following) 表示算上当日以及之前2天，以及之后3天的平均开销。

2023-05-05 22:54:10 87

原创 AB实验基本流程

AB实验基本流程公式整理

2022-09-27 14:54:44 1820 1

原创 DeepFM模型

DeepFM模型简介知识点知识点DeepFM主要包含两部分，因子分解机及深度神经网络。第一部分是为了低阶特征提取，第二部分是高阶特征提取。y^=sigmoid(yFM+yDNN)\hat{y} = sigmoid(y_{FM}+y_{DNN})y^=sigmoid(yFM+yDNN)...

2021-10-02 11:10:54 218

原创关键迭代笔记

关键迭代笔记知识点知识点综合评估标准(overall evaluation criterion, OEC)相关性并不意味着因果关系关键指标的改进都是由很多0.1%~2%的小改动累积起来的，所以你需要将一个作用于10%用户的5%的影响稀释到0.5%必应几百人的关联算法团队每年的任务就是将单个OEC指标提高2%。速度非常关键，亚马逊一个100毫秒的减速实验使销售额减少了1%，必应和谷歌的联合演讲展示了性能对关键指标的显著影响将战略和OEC绑定创造了“战略廉正” (strategic integr

2021-07-14 13:26:01 1374

原创 ELMo

@[TOC](ELMo(Embeddings from Language Models))知识点NNLM使用了语言模型的框架，使用了深度学习。layer1 : Word featureslayer2 : Syntactic featureslayer3 : Semantic featuresE(word)=α1E(word)+α2E(word)(1)+α3E(word)2E(word) = \alpha_1E(word)+\alpha_2E(word)^{(1)}+\alpha_3E(wo

2021-04-10 14:49:10 203

原创 Word2Vec 简介

Word2Vec 简介知识点知识点两种方法skip-gram和CBOWSkip-gram：中心词预测上下文。目标函数：text=w1w2…wNtext = w_1w_2\dots w_{N}text=w1w2…wNarg⁡max⁡θΠw∈textΠc∈c(w)log⁡P(c∣w;θ)=arg⁡max⁡θΠw∈textΠc∈c(w)log⁡euc⋅vw∑euc⋅vw=arg⁡max⁡θΠw∈textΠc∈c(w)uc⋅vw−log⁡∑euc⋅vw\begin{aligned}&\

2021-03-22 23:19:49 153

原创条件随机场CRF

CRF条件随机场知识点知识点有向图无向图log linear model通用形式：P(y∣x,w)=exp(∑jwjFj(x,y))z(x,w)P(y|x,w)=\frac{exp(\sum_{j}w_{j}F_{j}(x,y))}{z(x,w)}P(y∣x,w)=z(x,w)exp(∑jwjFj(x,y))F为feature function，有不同的构造方法。逻辑回归(LR)条件随机场(CRF)P(yˉ∣xˉ,w)=1z(xˉ,w)exp∑j=1JwjFj(xˉ,yˉ)

2021-03-01 22:15:24 85

原创推荐系统 - 2

推荐系统 - 2知识点知识点架构与业务流用户行为数据收集，业务数据收集批量计算(离线计算)：用户文章画像，用户召回结果，排序精选过程用户的召回结果，排序精选过程实时推荐业务流的搭建...

2021-02-21 22:51:52 94

原创推荐系统基础 - 1

推荐系统知识点知识点推荐系统基本思想：推荐系统的数据分析：要推荐物品或内容的元数据：如关键字，分类标签，基因描述等系统用户的基本信息：如性别，年龄，兴趣标签等用户的行为数据：可以转化为对物品或者信息的偏好，根据应用本身的不同，可能包括用户对物品的评分，用户查看物品的记录，用户的购买记录等。这些用户的偏好信息可以分为两类：显示的用户反馈：这类是用户在网站上自然浏览或者使用网站以外，显示的提供反馈信息，例如用户对物体的评分，或者对物体的评论。隐式的用户反馈：这类是用户在使用网站时产

2021-02-10 15:31:17 132 1

原创产品数据分析

产品数据分析知识点知识点常用app：抖音2016上线，2018爆发定位：音乐创意短视频社交平台(符合当前年轻人碎片化时间特性)用户画像：年轻人，中年人为主目标人群及相应指标：创作者：粉丝数量，视频播放量，广告收入/成本观看者：视频内容，功能界面，社交属性，用户群体版本迭代：增加滤镜社交功能增强，朋友视频放到了显眼位置拍同款功能等缺点：创作时可以选择的音乐偏少，增加音乐版权缺少防沉迷机制，建议显示抖音今日累计观看时长降低内容重复度，不要过度依赖推荐系统

2021-02-02 16:40:49 305

原创自然语言处理基础 Part3

自然语言处理基础 Part3知识点知识点变分推断计算过程ln⁡P(x)=ln⁡P(x,z)−ln⁡P(z∣x)=ln⁡P(x,z)q(z)−ln⁡P(z∣x)q(z)=Eq(z)[ln⁡P(x,z)]−Eq(z)[ln⁡q(z)]−Eq(z)[ln⁡P(z∣x)q(z)]⇒Eq(z)(ln⁡P(x))=ln⁡P(x)∫ln⁡P(x,z)q(z)dz−∫ln⁡q(z)q(z)dz⏟L(q) ELOB+∫ln⁡q(z)P(z∣x)q(z)dz⏟KL(q(z),P(z∣x))

2021-01-18 14:42:01 177

原创 LC Hashtable

哈希表简单中等困难简单有效的字母异位词def isAnagram(self, s,t): s_map,t_map = {},{} for c in s: if c in s_map: s_map[c] += 1 else: s_map[c] = 1 for c in t: if c in t_map: t_map[c] += 1 else: t_map[c] = 1 return s_map == t_map中等困难...

2021-01-12 15:02:26 105

原创 LC Tree

LC Tree简单中等困难简单相同树#Method1def isSameTree(self,p,q): if not p and not q: return True elif not p or not q: return False else: return p.val == q.val and self.isSameTree(p.left,q.left) and self.isSameTree(p.right,q.right)对称树def MirrorTree(s

2021-01-04 13:58:14 159

原创自然语言处理基础 Part2

自然语言处理 Part2知识点知识点采样方法importance samplingnegative samplingNCE为什么采样近似，用于计算统计量得到后验推断，实际上更有作用可视化。采样的优点和缺点：优点：简单，满足一些常用的需求。缺点：蒙特卡洛比较慢，很难去得到一个很好的样本蒙特卡洛：目标：求解Ef(x)E f(x)Ef(x)定义：x1,x2,…,xn∼p iid. then μ^=1n∑i=1nf(xi)x

2021-01-03 20:00:21 113

原创 LC LINKEDLIST

LC LINKEDLIST简单中等困难简单合并两个有序链表：#Method1 非递归def mergetwosortedll(self,l1,l2): head = ListNode(None) res = head while l1 and l2: if l1.val<l2.val: head.next = ListNode(l1.val) l1 = l1.next else: head.next = ListNode(l2.val) l2 = l2

2021-01-02 14:43:53 80

原创动态规划

动态规划题目题目基本步骤：问题目标定义状态函数：f(n)状态转移方程：f(n) = bestof(f(n-1),f(n-2),f(n-3),…)最大子序和。LC剑指offer 42:def maxsum(nums): if not arr: return dp = [-float('inf')] * len(nums) dp[0] = nums[0] for i in range(len(nums)-1): dp[i+1] = max(dp[i]+nums[i+1],num

2020-12-15 22:05:27 105

原创爬虫项目3 - 股票数据爬取

量化1 - 股票数据爬取步骤步骤爬取股票名和股票列表，使用gucheng网进行爬取，网址：https://hq.gucheng.com/gpdmylb.htmlimport requestsimport reimport csvfrom bs4 import BeautifulSoupimport pandas as pddef parse_html(url,headers): try: res = requests.get(url=url,headers=h

2020-12-08 00:27:38 2450 4

原创爬虫项目2 - 淘宝商品信息爬取

淘宝商品信息爬取步骤步骤首先找到淘宝登陆界面：https://login.taobao.com/member/login.jhtml使用selenium + beautiful进行数据爬取，记得要延长等待时间：from selenium import webdriverimport timeimport randomfrom bs4 import BeautifulSoupimport csvimport re#初始def main(): tb = webdriver

2020-12-07 13:47:58 1085 2

原创爬虫项目1 - 豆瓣电影top250

豆瓣电影top250步骤步骤定义爬取函数import requestsimport reimport csvdef parse_html(url,headers,params): try: res = requests.get(url=url, headers=headers, params=params) return res.content.decode('utf-8') except requests.RequestException:

2020-12-07 12:22:04 261 1

原创 Python Part2

Python Part2知识点知识点嵌套函数：函数内定义的函数。封装，隐藏。贯彻DRY(Don’t Repeat Yourself)原则，在函数内部避免重复代码。闭包?nonlocal声明外层局部变量，global声明全局变量。def outer()： b = 10 def inner(): nonlocal b print('inner b:',b) b = 20 inner() print('outer b:',b)outer()#output'inne

2020-12-05 08:07:59 138

原创自然语言处理基础 Part 1

自然语言处理 Part 1知识点知识点NLP:NLP = NLG+NLUNLU(Natural Language Understanding)：语音/文本 -> 意思NLG(Natural Language Generation)：意思 -> 语音/文本中文到英文：中文句子分词Broken English整合成英文句子NLP处理的四个维度：Semantic（语义）Syntax（句子结构）Morphology（单词）Phonetics（声音）

2020-12-04 18:17:33 141

原创 Pytorch资料

Pytorch知识点知识点Pytorch和Tensorflow的区别: 动态图还是静态图的计算。Pytorch是动态图，可以在中间步骤调试。Tensorflow是静态图。先定义好公式，然后给输入之后，直接进行计算。不方便调试。...

2020-11-23 15:30:15 146

原创 Deep Learning2

Deep Learning2知识点知识点Bias & Variance: 做N次实验，可以计算Variance和Mean，然后根据均值计算Bias。Bias：增加模型复杂度，增加特征。Variance：减少模型复杂度，增加数据样本，交叉验证。

2020-11-09 09:02:08 298 2

原创 Deep learning1

Deep Learning知识点知识点各种学习。semi - supervised learning：部分有label，部分没有label。transfer learning：包含不相关数据的学习unsupervised learning：没有label的学习structured learning：输入和输出都有结构化的对象。输出可以是图像，语音，语句等，较复杂。reinforcement learning：从评价中学习，比较符合人类真实的学习过程。...

2020-10-27 15:24:38 140 2

原创 Sklearn

Sklearn知识点知识点KNN参数：n_neighbors：邻居数量weights：‘distance’n_jobs：多进程，-1则为默认使用所有进程p：1采用曼哈顿距离，2采用欧式距离metrics：‘Minkovski’

2020-10-16 08:40:55 134

原创 Leetcode题集

Leetcode树(Tree)分治(Divide and Conquer)链表(Linked List)二叉搜索树(BST)树(Tree)idnameDifficultySimilar problemsComments94Binary Tree Inorder Traversal1144,145,429,589,590,987,1302traversal100Same Tree2101,104,110,111,572,965102Binary Tr

2020-09-30 09:41:09 188

原创 MAC环境变量设置

MAC环境变量知识点知识点sudo vim ~/.bash_profile或者open ~/.bash_profile，在其中加入Python Path 如下：PATH="/Library/Frameworks/Python.framework/Versions/3.8/bin:${PATH}"export PATH然后再source ~/.bash_profile即可。安装python的包使用国内地址：pip3 install -i https://pypi.tuna.tsingh

2020-09-20 09:59:38 164

原创机器学习7 - 算法进阶2

机器学习7 - 算法进阶2知识点知识点距离度量。Manhattan: dist(x,y)=∑i∣xi−yi∣dist(x,y) = \sum_{i}|x_{i}-y_{i}|dist(x,y)=∑i∣xi−yi∣欧式距离Euclidean: dist(x,y)=∑i(xi−yi)2dist(x,y) = \sqrt{\sum_{i}(x_{i}-y_{i})^2}dist(x,y)=∑i(xi−yi)2Minkowski: dist(x,y)=(∑i∣xi−yi)p)1pdi

2020-09-19 20:04:31 382

原创机器学习6 - 算法进阶1

机器学习6 - 算法进阶知识点知识点最大似然函数L(x1,x2,…,xn;θ1,θ2,…,θk)=∏i=1nf(xi,θ1,θ2,…,θk)L(x_{1},x_{2},\dots,x_{n};\theta_1,\theta_2,\dots,\theta_{k})=\prod_{i=1}^{n}f(x_{i},\theta_1, \theta_2,\dots,\theta_{k})L(x1,x2,…,xn;θ1,θ2,…,θk)=i=1∏nf(xi,θ1,θ2,…,θk)求θ\

2020-09-14 22:17:21 355

原创机器学习5 - 算法

机器学习5 - 算法知识点知识点KNN：使用欧式距离。计算距离前要先做标准化。选取最近的k个点来推断该点的值或类别。sklearn.neighbors.KNeighborsClassifier(n_neighbors=5)K值取小：容易受异常值影响K值取大：容易受样本K数量(类别)影响性能问题：计算量大适用场景：小样本场景，几千-几万。朴素贝叶斯：假设所有特征之间独立，使用贝叶斯公式计算给定文档时某个词出现的概率。P(C∣F1,F2,… )=P(F1,F2,…∣C)P(C)P(W)

2020-09-13 21:46:07 144

原创机器学习4 - 数据和特征

机器学习4 - 数据和特征知识点知识点mysql：性能瓶颈，读取速度不行。格式不太符合机器学习要求数据的格式MongoDB：读取速度还可，但是格式为json大部分时候存在csv中。numpy释放了GIL(全局解释器锁)：真正的多线程。计算能力强就是因为numpy的这个多线程工程。详解：https://www.jianshu.com/p/9eb586b64bdb数据集来源：Kaggle：https://www.kaggle.com/datasetsUCI： http://

2020-09-13 09:51:26 197

原创机器学习3 - 矩阵和线性代数

矩阵和线性代数知识点知识点

2020-09-10 20:41:56 163

原创机器学习2 - 概率基础

机器学习2 - 概率基础知识点知识点本福特规律，又称第一数字定律，是指在实际生活中得出的一组数据中，以1为首为首位数字出现的概率约为总数的三成。数字出现概率：数字出现概率130.1%217.6%312.5%49.7%57.9%66.7%75.8%85.1%94.6%全概率公式：P(A)=ΣiP(A∣Bi)P(Bi)P(A)=\Sigma_{i}P(A|B_{i})P(B_{i})P(A)=ΣiP(A∣

2020-09-10 17:24:14 167

原创机器学习1 - 数学分析

机器学习1知识点知识点机器学习的内涵与外延。机器学习可以解决什么给定数据的预测问题数据清洗/特征选择确定模型算法/特征优化结果预测不能解决什么大数据储存/并行计算做一个机器人机器学习一般流程：数据收集，数据清洗，特征工程，数据建模Taylor展开：lim⁡x→x0f(x)=f(x0)+f′(x0)∗(x−x0)+f′′(x0)(x−x0)22+⋯+fn(x0)(x−x0)nn!\lim_{x\rightarrow x_{0}}f(x) = f(x_{0})+

2020-09-10 13:08:01 109

原创 Git notes

Git知识点知识点本地gitGithub协作冲突。Fork在idea中使用git。

2020-09-09 19:36:54 261

原创 Python 可视化

Python DS - 可视化知识点知识点散点图，主要用来观察两个变量的相关性。

2020-09-08 13:41:48 151

原创算法 Part4 Tree

算法HW6知识点知识点树。树的种类：树的顺序存储，将数据结构存储在固定的数组中，虽然在遍历上有一定的优势，但所占空间较大，非主流二叉树。通常以链式储存。树的常见应用场景。xml, html，解析器。路由协议就是使用了树的算法mysql数据库索引文件系统的目录结构很多经典的AI算法都是树搜索。树的实现。class Node: def __init__(self,item): self.val = item self.left = None self

2020-09-04 16:13:57 119

原创算法 Part3 Sorting

算法HW5知识点知识点排序算法的稳定性：稳定的排序会让原本有相等键值的记录维持相对次序。冒泡排序：def bubble_sort(arr): for i in range(len(l)-1): for j in range(i+1,len(l)): if arr[i]>arr[j]: arr[i],arr[j] =arr[j],arr[i] return arr时间复杂度：O(n2)，空间复杂度：O(n)。稳定。选择排序，优点在于数据移动，若某个元素位于正确的

2020-09-04 11:29:31 158

原创算法 Part2 LL Stack

算法HW3知识点知识点链表，将元素放在将通过链接构造起来的一系列存储块中，是一种线性表。链表的结构图示:单链表的类。class Node: def __init__(self,elem): self.elem = elem self.next = Noneclass SingleLinklist: def __init__(self,node): self._head = node def is_empty(self): return not self._head

2020-09-02 17:55:24 134

原创算法 Part1 基础

算法HW1知识点知识点算法五个特征。输入：算法具有0个或多个输入输出：至少有一个或多个输出有穷性：算法在有限的步骤之后会自动结束而不会无限循环，且每个步骤在可接受的时间范围内完成。确定性：每一步都有确定的含义，不能有二义性。可行性：算法的每一步都是可行的，每一步都可以执行有限的次数完成。时间复杂度指的是最坏时间复杂度。基本步骤O(1)顺序结构，时间复杂度按加法计算循环结构，时间复杂度按乘法计算分支结构，时间复杂度取最大值复杂度List内置方法的时间复杂度Dict

2020-08-31 17:29:32 142

空空如也

空空如也