- 博客(42)
- 收藏
- 关注
原创 SQL笔记
SQL笔记over使用方法over使用方法rank(), row_number(), dense_rank() over (partition by a order by b) 表示按照a group by 后,对b排序加顺序号。avg(cost) over(order by orderdate rows between 3 preceeding and 3 following) 表示算上当日以及之前2天,以及之后3天的平均开销。
2023-05-05 22:54:10 87
原创 DeepFM模型
DeepFM模型简介知识点知识点DeepFM主要包含两部分,因子分解机及深度神经网络。第一部分是为了低阶特征提取,第二部分是高阶特征提取。y^=sigmoid(yFM+yDNN)\hat{y} = sigmoid(y_{FM}+y_{DNN})y^=sigmoid(yFM+yDNN)...
2021-10-02 11:10:54 218
原创 关键迭代笔记
关键迭代笔记知识点知识点综合评估标准(overall evaluation criterion, OEC)相关性并不意味着因果关系关键指标的改进都是由很多0.1%~2%的小改动累积起来的,所以你需要将一个作用于10%用户的5%的影响稀释到0.5%必应几百人的关联算法团队每年的任务就是将单个OEC指标提高2%。速度非常关键,亚马逊一个100毫秒的减速实验使销售额减少了1%,必应和谷歌的联合演讲展示了性能对关键指标的显著影响将战略和OEC绑定创造了“战略廉正” (strategic integr
2021-07-14 13:26:01 1374
原创 ELMo
@[TOC](ELMo(Embeddings from Language Models))知识点NNLM使用了语言模型的框架,使用了深度学习。layer1 : Word featureslayer2 : Syntactic featureslayer3 : Semantic featuresE(word)=α1E(word)+α2E(word)(1)+α3E(word)2E(word) = \alpha_1E(word)+\alpha_2E(word)^{(1)}+\alpha_3E(wo
2021-04-10 14:49:10 203
原创 Word2Vec 简介
Word2Vec 简介知识点知识点两种方法skip-gram和CBOWSkip-gram:中心词预测上下文。目标函数:text=w1w2…wNtext = w_1w_2\dots w_{N}text=w1w2…wNargmaxθΠw∈textΠc∈c(w)logP(c∣w;θ)=argmaxθΠw∈textΠc∈c(w)logeuc⋅vw∑euc⋅vw=argmaxθΠw∈textΠc∈c(w)uc⋅vw−log∑euc⋅vw\begin{aligned}&\
2021-03-22 23:19:49 153
原创 条件随机场CRF
CRF条件随机场知识点知识点有向图无向图log linear model通用形式:P(y∣x,w)=exp(∑jwjFj(x,y))z(x,w)P(y|x,w)=\frac{exp(\sum_{j}w_{j}F_{j}(x,y))}{z(x,w)}P(y∣x,w)=z(x,w)exp(∑jwjFj(x,y))F为feature function,有不同的构造方法。逻辑回归(LR)条件随机场(CRF)P(yˉ∣xˉ,w)=1z(xˉ,w)exp∑j=1JwjFj(xˉ,yˉ)
2021-03-01 22:15:24 85
原创 推荐系统 - 2
推荐系统 - 2知识点知识点架构与业务流用户行为数据收集,业务数据收集批量计算(离线计算):用户文章画像,用户召回结果,排序精选过程用户的召回结果,排序精选过程实时推荐业务流的搭建...
2021-02-21 22:51:52 94
原创 推荐系统基础 - 1
推荐系统知识点知识点推荐系统基本思想:推荐系统的数据分析:要推荐物品或内容的元数据:如关键字,分类标签,基因描述等系统用户的基本信息:如性别,年龄,兴趣标签等用户的行为数据:可以转化为对物品或者信息的偏好,根据应用本身的不同,可能包括用户对物品的评分,用户查看物品的记录,用户的购买记录等。这些用户的偏好信息可以分为两类:显示的用户反馈:这类是用户在网站上自然浏览或者使用网站以外,显示的提供反馈信息,例如用户对物体的评分,或者对物体的评论。隐式的用户反馈:这类是用户在使用网站时产
2021-02-10 15:31:17 132 1
原创 产品数据分析
产品数据分析知识点知识点常用app:抖音2016上线,2018爆发定位:音乐创意短视频社交平台(符合当前年轻人碎片化时间特性)用户画像:年轻人,中年人为主目标人群及相应指标:创作者:粉丝数量,视频播放量,广告收入/成本观看者:视频内容,功能界面,社交属性, 用户群体版本迭代:增加滤镜社交功能增强,朋友视频放到了显眼位置拍同款功能等缺点:创作时可以选择的音乐偏少,增加音乐版权缺少防沉迷机制,建议显示抖音今日累计观看时长降低内容重复度,不要过度依赖推荐系统
2021-02-02 16:40:49 305
原创 自然语言处理基础 Part3
自然语言处理基础 Part3知识点知识点变分推断计算过程lnP(x)=lnP(x,z)−lnP(z∣x)=lnP(x,z)q(z)−lnP(z∣x)q(z)=Eq(z)[lnP(x,z)]−Eq(z)[lnq(z)]−Eq(z)[lnP(z∣x)q(z)]⇒Eq(z)(lnP(x))=lnP(x)∫lnP(x,z)q(z)dz−∫lnq(z)q(z)dz⏟L(q) ELOB+∫lnq(z)P(z∣x)q(z)dz⏟KL(q(z),P(z∣x))
2021-01-18 14:42:01 177
原创 LC Hashtable
哈希表简单中等困难简单有效的字母异位词def isAnagram(self, s,t): s_map,t_map = {},{} for c in s: if c in s_map: s_map[c] += 1 else: s_map[c] = 1 for c in t: if c in t_map: t_map[c] += 1 else: t_map[c] = 1 return s_map == t_map中等困难...
2021-01-12 15:02:26 105
原创 LC Tree
LC Tree简单中等困难简单相同树#Method1def isSameTree(self,p,q): if not p and not q: return True elif not p or not q: return False else: return p.val == q.val and self.isSameTree(p.left,q.left) and self.isSameTree(p.right,q.right)对称树def MirrorTree(s
2021-01-04 13:58:14 159
原创 自然语言处理基础 Part2
自然语言处理 Part2知识点知识点采样方法importance samplingnegative samplingNCE为什么采样近似,用于计算统计量得到后验推断,实际上更有作用可视化。采样的优点和缺点:优点:简单,满足一些常用的需求。缺点:蒙特卡洛比较慢,很难去得到一个很好的样本蒙特卡洛:目标: 求解Ef(x)E f(x)Ef(x)定义:x1,x2,…,xn∼p iid. then μ^=1n∑i=1nf(xi)x
2021-01-03 20:00:21 113
原创 LC LINKEDLIST
LC LINKEDLIST简单中等困难简单合并两个有序链表:#Method1 非递归def mergetwosortedll(self,l1,l2): head = ListNode(None) res = head while l1 and l2: if l1.val<l2.val: head.next = ListNode(l1.val) l1 = l1.next else: head.next = ListNode(l2.val) l2 = l2
2021-01-02 14:43:53 80
原创 动态规划
动态规划题目题目基本步骤:问题目标定义状态函数:f(n)状态转移方程:f(n) = bestof(f(n-1),f(n-2),f(n-3),…)最大子序和。LC剑指offer 42:def maxsum(nums): if not arr: return dp = [-float('inf')] * len(nums) dp[0] = nums[0] for i in range(len(nums)-1): dp[i+1] = max(dp[i]+nums[i+1],num
2020-12-15 22:05:27 105
原创 爬虫项目3 - 股票数据爬取
量化1 - 股票数据爬取步骤步骤爬取股票名和股票列表,使用gucheng网进行爬取,网址:https://hq.gucheng.com/gpdmylb.htmlimport requestsimport reimport csvfrom bs4 import BeautifulSoupimport pandas as pddef parse_html(url,headers): try: res = requests.get(url=url,headers=h
2020-12-08 00:27:38 2450 4
原创 爬虫项目2 - 淘宝商品信息爬取
淘宝商品信息爬取步骤步骤首先找到淘宝登陆界面:https://login.taobao.com/member/login.jhtml使用selenium + beautiful进行数据爬取,记得要延长等待时间:from selenium import webdriverimport timeimport randomfrom bs4 import BeautifulSoupimport csvimport re#初始def main(): tb = webdriver
2020-12-07 13:47:58 1085 2
原创 爬虫项目1 - 豆瓣电影top250
豆瓣电影top250步骤步骤定义爬取函数import requestsimport reimport csvdef parse_html(url,headers,params): try: res = requests.get(url=url, headers=headers, params=params) return res.content.decode('utf-8') except requests.RequestException:
2020-12-07 12:22:04 261 1
原创 Python Part2
Python Part2知识点知识点嵌套函数:函数内定义的函数。封装,隐藏。贯彻DRY(Don’t Repeat Yourself)原则,在函数内部避免重复代码。闭包?nonlocal声明外层局部变量,global声明全局变量。def outer(): b = 10 def inner(): nonlocal b print('inner b:',b) b = 20 inner() print('outer b:',b)outer()#output'inne
2020-12-05 08:07:59 138
原创 自然语言处理基础 Part 1
自然语言处理 Part 1知识点知识点NLP:NLP = NLG+NLUNLU(Natural Language Understanding):语音/文本 -> 意思NLG(Natural Language Generation):意思 -> 语音/文本中文到英文:中文句子分词Broken English整合成英文句子NLP处理的四个维度:Semantic(语义)Syntax(句子结构)Morphology(单词)Phonetics(声音)
2020-12-04 18:17:33 141
原创 Pytorch资料
Pytorch知识点知识点Pytorch和Tensorflow的区别: 动态图还是静态图的计算。Pytorch是动态图,可以在中间步骤调试。Tensorflow是静态图。先定义好公式,然后给输入之后,直接进行计算。不方便调试。...
2020-11-23 15:30:15 146
原创 Deep Learning2
Deep Learning2知识点知识点Bias & Variance: 做N次实验,可以计算Variance和Mean,然后根据均值计算Bias。Bias:增加模型复杂度,增加特征。Variance:减少模型复杂度,增加数据样本,交叉验证。
2020-11-09 09:02:08 298 2
原创 Deep learning1
Deep Learning知识点知识点各种学习。semi - supervised learning:部分有label,部分没有label。transfer learning:包含不相关数据的学习unsupervised learning:没有label的学习structured learning:输入和输出都有结构化的对象。输出可以是图像,语音,语句等,较复杂。reinforcement learning:从评价中学习,比较符合人类真实的学习过程。...
2020-10-27 15:24:38 140 2
原创 Sklearn
Sklearn知识点知识点KNN参数:n_neighbors:邻居数量weights:‘distance’n_jobs:多进程,-1则为默认使用所有进程p:1采用曼哈顿距离,2采用欧式距离metrics:‘Minkovski’
2020-10-16 08:40:55 134
原创 Leetcode题集
Leetcode树(Tree)分治(Divide and Conquer)链表(Linked List)二叉搜索树(BST)树(Tree)idnameDifficultySimilar problemsComments94Binary Tree Inorder Traversal1144,145,429,589,590,987,1302traversal100Same Tree2101,104,110,111,572,965102Binary Tr
2020-09-30 09:41:09 188
原创 MAC环境变量设置
MAC环境变量知识点知识点sudo vim ~/.bash_profile或者open ~/.bash_profile,在其中加入Python Path 如下:PATH="/Library/Frameworks/Python.framework/Versions/3.8/bin:${PATH}"export PATH然后再source ~/.bash_profile即可。安装python的包使用国内地址:pip3 install -i https://pypi.tuna.tsingh
2020-09-20 09:59:38 164
原创 机器学习7 - 算法进阶2
机器学习7 - 算法进阶2知识点知识点距离度量。Manhattan: dist(x,y)=∑i∣xi−yi∣dist(x,y) = \sum_{i}|x_{i}-y_{i}|dist(x,y)=∑i∣xi−yi∣欧式距离Euclidean: dist(x,y)=∑i(xi−yi)2dist(x,y) = \sqrt{\sum_{i}(x_{i}-y_{i})^2}dist(x,y)=∑i(xi−yi)2Minkowski: dist(x,y)=(∑i∣xi−yi)p)1pdi
2020-09-19 20:04:31 382
原创 机器学习6 - 算法进阶1
机器学习6 - 算法进阶知识点知识点最大似然函数L(x1,x2,…,xn;θ1,θ2,…,θk)=∏i=1nf(xi,θ1,θ2,…,θk)L(x_{1},x_{2},\dots,x_{n};\theta_1,\theta_2,\dots,\theta_{k})=\prod_{i=1}^{n}f(x_{i},\theta_1, \theta_2,\dots,\theta_{k})L(x1,x2,…,xn;θ1,θ2,…,θk)=i=1∏nf(xi,θ1,θ2,…,θk)求θ\
2020-09-14 22:17:21 355
原创 机器学习5 - 算法
机器学习5 - 算法知识点知识点KNN:使用欧式距离。计算距离前要先做标准化。选取最近的k个点来推断该点的值或类别。sklearn.neighbors.KNeighborsClassifier(n_neighbors=5)K值取小:容易受异常值影响K值取大:容易受样本K数量(类别)影响性能问题:计算量大适用场景:小样本场景,几千-几万。朴素贝叶斯:假设所有特征之间独立,使用贝叶斯公式计算给定文档时某个词出现的概率。P(C∣F1,F2,… )=P(F1,F2,…∣C)P(C)P(W)
2020-09-13 21:46:07 144
原创 机器学习4 - 数据和特征
机器学习4 - 数据和特征知识点知识点mysql:性能瓶颈,读取速度不行。格式不太符合机器学习要求数据的格式MongoDB:读取速度还可,但是格式为json大部分时候存在csv中。numpy释放了GIL(全局解释器锁):真正的多线程。计算能力强就是因为numpy的这个多线程工程。详解:https://www.jianshu.com/p/9eb586b64bdb数据集来源:Kaggle:https://www.kaggle.com/datasetsUCI: http://
2020-09-13 09:51:26 197
原创 机器学习2 - 概率基础
机器学习2 - 概率基础知识点知识点本福特规律,又称第一数字定律,是指在实际生活中得出的一组数据中,以1为首为首位数字出现的概率约为总数的三成。数字出现概率:数字出现概率130.1%217.6%312.5%49.7%57.9%66.7%75.8%85.1%94.6%全概率公式:P(A)=ΣiP(A∣Bi)P(Bi)P(A)=\Sigma_{i}P(A|B_{i})P(B_{i})P(A)=ΣiP(A∣
2020-09-10 17:24:14 167
原创 机器学习1 - 数学分析
机器学习1知识点知识点机器学习的内涵与外延。机器学习可以解决什么给定数据的预测问题数据清洗/特征选择确定模型算法/特征优化结果预测不能解决什么大数据储存/并行计算做一个机器人机器学习一般流程:数据收集,数据清洗,特征工程,数据建模Taylor展开:limx→x0f(x)=f(x0)+f′(x0)∗(x−x0)+f′′(x0)(x−x0)22+⋯+fn(x0)(x−x0)nn!\lim_{x\rightarrow x_{0}}f(x) = f(x_{0})+
2020-09-10 13:08:01 109
原创 算法 Part4 Tree
算法HW6知识点知识点树。树的种类:树的顺序存储,将数据结构存储在固定的数组中,虽然在遍历上有一定的优势,但所占空间较大,非主流二叉树。通常以链式储存。树的常见应用场景。xml, html,解析器。路由协议就是使用了树的算法mysql数据库索引文件系统的目录结构很多经典的AI算法都是树搜索。树的实现。class Node: def __init__(self,item): self.val = item self.left = None self
2020-09-04 16:13:57 119
原创 算法 Part3 Sorting
算法HW5知识点知识点排序算法的稳定性:稳定的排序会让原本有相等键值的记录维持相对次序。冒泡排序:def bubble_sort(arr): for i in range(len(l)-1): for j in range(i+1,len(l)): if arr[i]>arr[j]: arr[i],arr[j] =arr[j],arr[i] return arr时间复杂度:O(n2),空间复杂度:O(n)。稳定。选择排序,优点在于数据移动,若某个元素位于正确的
2020-09-04 11:29:31 158
原创 算法 Part2 LL Stack
算法HW3知识点知识点链表,将元素放在将通过链接构造起来的一系列存储块中,是一种线性表。链表的结构图示:单链表的类。class Node: def __init__(self,elem): self.elem = elem self.next = Noneclass SingleLinklist: def __init__(self,node): self._head = node def is_empty(self): return not self._head
2020-09-02 17:55:24 134
原创 算法 Part1 基础
算法HW1知识点知识点算法五个特征。输入:算法具有0个或多个输入输出:至少有一个或多个输出有穷性:算法在有限的步骤之后会自动结束而不会无限循环,且每个步骤在可接受的时间范围内完成。确定性:每一步都有确定的含义,不能有二义性。可行性:算法的每一步都是可行的,每一步都可以执行有限的次数完成。时间复杂度指的是最坏时间复杂度。基本步骤O(1)顺序结构,时间复杂度按加法计算循环结构,时间复杂度按乘法计算分支结构,时间复杂度取最大值复杂度List内置方法的时间复杂度Dict
2020-08-31 17:29:32 142
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人