sladesha-CSDN博客

原创 Lasso算法理论介绍

先讲一波过拟合：均方根误差也叫标准误差，即为√[∑di^2/n]=Re，n为测量次数；di为一组测量值与真值的偏差。实际考虑回归的过程中，我们需要考虑到误差项，这个和简单的线性回归的公式相似，而在正则化下来优化过拟合这件事情的时候，会加入一个约束条件，也就是惩罚函数：这边这个惩罚函数有多种形式，比较常用的有l1,l2，大概有如下几种：

2016-11-14 21:40:11 95526 4

前言在自然语言处理领域，我们有一种类型的问题是如何在一堆文本中提取出核心词/句子。而无论是对于长文本还是短文本，往往几个关键词就可以代表整个文本的主题思想。同时，在很多推荐系统中，由于无法直接就整体文本进行利用，往往会现对文本进行汇总，常用的方法就是embedding或者关键词抽取，关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。让我们看下有哪些快速上手可用的方法。TFIDFT...

2020-01-04 20:40:18 630

原创 Bert需要理解的一些内容

更多来自于GitHub：Reflection_Summary.Bert的双向体现在什么地方？mask+attention，mask的word结合全部其他encoder word的信息Bert的是怎样实现mask构造的？MLM：将完整句子中的部分字mask，预测该mask词NSP：为每个训练前的例子选择句子 A 和 B 时，50% 的情况下 B 是真的在 A 后面的下一个句子， 50% ...

2019-12-20 15:17:47 1920

原创 xDeepFM架构理解及实现

本文主要是为了讲解xDeepFM的框架，及如何用tensorflow去实现主干部分，如果需要直接拆箱可用，可以参考:xDeepFM，我的部分代码也来自于其中，这边主要是和大家一起对比着看下，xDeepFM到底做了哪些事情？我的工程实现代码等待我司项目上线稳定后开源。XDeepFM到底extreme在哪里？首先，我在做论坛帖子推荐的时候遇到这么一个问题（问题真实，问题内容纯属虚构），用户A：带有...

2019-12-17 21:00:24 1384

原创 Auto-Machine-Learning初探

前言最近在看AutoML，业界在 automl 上的进展还是很不错的，个人比较看好这个方向，所以做了一些了解：Google: Cloud AutoML, Google’s Prediction APIMicrosoft: Custom Vision, Azure Machine LearningAmazon: Amazon Machine LearningBaiDu：EasyEAli...

2019-12-07 15:10:37 653

原创集成学习需要理解的一些内容

本系列为深入篇，尽可能完善专题知识，并不会所有的都会出现在面试中，更多内容，详见：Reflection_Summary，欢迎交流。另外，欢迎大家关注我的个人bolg，知乎，更多代码内容欢迎follow我的个人Github，如果有任何算法、代码疑问都欢迎通过邮箱发消息给我。介绍一下Boosting的思想？初始化训练一个弱学习器，初始化下的各条样本的权重一致根据上一个弱学习器的结果，调整权...

2019-12-06 17:37:42 545

原创 LR需要理解的一些内容

本系列为深入篇，尽可能完善专题知识，并不会所有的都会出现在面试中，更多内容，详见：Reflection_Summary，欢迎交流。另外，欢迎大家关注我的个人bolg，知乎，更多代码内容欢迎follow我的个人Github，如果有任何算法、代码疑问都欢迎通过邮箱发消息给我。logistic分布函数和密度函数，手绘大概的图像分布函数：密度函数：其中，μ表示位置参数，γ为形状参数。logi...

2019-12-06 17:32:14 2053

原创 YoutubeNet的数据答疑

实在是太忙了，抽空给大家解析一下之前写的YoutubeNet的数据是怎么构造的，协助大家可以自行构造一下。这边和大家说一下，我没有上传数据的原因有两个：涉及公司的数据财产，不方便上传懒得做脱敏处理数据一共有1300多万条，传输实在不方便主要数据处理的部分在map_id_idx.py脚本下，其中包含all_item_20180624.txt和click_thirty_day_data_...

2019-09-05 17:32:26 956 2

原创 Google团队在DNN的实际应用方式的整理

很荣幸有机会和论文作者Emre Sargin关于之前发的Deep Neural Networks for YouTube Recommendations进行交流，梳理如下：提问对话汇总：如何进行负采样的？构造了千万量级热门视频集合，每个用户的负采样结果来源于这个集合，会有一些筛选的tricks，比如剔除浏览过的商品，负采样的数量Google在200万条。（也就是说，在计算loss的时候，...

2019-09-05 17:31:43 191

原创中文语境下的手机号识别

最近在做一个关于中文大段文本中的手机号码识别，由于属于对抗性的一个文本，发现传统的手机号码识别方法，比如正则匹配并不是很适用。理论情况下文本中的手机号码出现方式应该如下：9*6箱车转让，连线路一起打包，带线路转让，固定货源联系13802131234,手机号，非诚勿扰2+1合同对于这种情况，只要需要进行一下正则就行了：text = '9*6箱车转让，连线路一起打包，带线路转让，固定货源联系...

2019-09-05 17:29:16 465

原创 Python踩坑指南（第一季）

最近在python开发的过程中，发现了一些比较有意思的问题，确实让自己在开发过程中被恶心了一把，所以开了这个连续的更新博文，之后会持续的按第一第二第三这种版本下去，更新一些比较有意思的python代码问题。with open('/path/to/file', 'r') as f: print(f.read())IO读取采用with形式，避免忘记close，否则会产生很神奇的结果e...

2019-09-05 17:28:13 175

原创 Python踩坑指南（第二季）

本期围绕jieba讲一个我遇到的实际问题，在同一个服务里，存在两个不同接口A和B，都用到了jieba分词，区别在于两者需要调用不同的词库，巧合中，存在以下情况：词库A："干拌面"词库B："干拌","面"在服务启动的时候，由于词库A优先被加载了，再去加载词库B的时候发现，并没有加载成功：接口A中：jieba.load_userdict("A.txt")接口B中：jieba.load...

2019-09-05 17:26:24 884

原创 Python踩坑指南（第三季）

在代码维护的过程中，发现需要对某个变量进行保护，不允许调用修改，之前我一直使用的是_x或者__x的形式，这样做只是避免展示，但是如果想要强行修改，还是可以变更的，为了保证高安全性，这边可以参考@property的形式：class test(object): """docstring for test""" def __init__(self, arg): self._arg = arg...

2019-09-05 17:22:42 238

原创 transformer工程实现笔记

上线形式：tensorflow直接加载上线基于openblas重新实现基于cublas库重新实现优点：tensorflow：有谷歌开源代码，不需要另外实现cublas/openblas：可以定制化优化，耗时更短，可微调缺点：tensorflow：耗时长，内部黑盒无法微调cublas/openblas：部分核心功能要重写，只支持基础包以下为工程实现细节：input/outpu...

2019-09-05 17:18:41 403

原创 Python自用工具包PyTls

我们搞了个python的工具包PyTls。做这件事的初衷是发生了一个星期要用python同时开发3个项目的情况，我发现了两个现象：1.有很多定制化的需求是极度高频反复重写的；2.有很多功能之前写过，可能因为稍许复杂又忘了，再用的时候又要去Google。所以，拉着同组的一个实习生，一起维护了PyTls的这个项目，为的就是那句"life is short, we need python"。所有的详...

2019-09-05 17:14:39 332

原创 DynamicProgramming动态规划整理

整理一下刷题过程中的一些想法，方便以后高效复习，动态规划部分整理如下：主要的思路有如下几种：基础类型只需要写出i和i-1之间的状态转移方程即可，没有任何额外操作的行为，比如：一维度：53. 最大子序和,状态方程是:dp[i] = max(dp[i-1]+nums[i],nums[i])70. 爬楼梯,状态方程是:result[i]=result[i-1]+result[i-2]...

2019-09-05 17:12:03 216

原创电商交叉销售

数据整合核心：在有限资源下，尽可能的提供高转化率的用户群，辅助业务增长1.商品相关性存在商品A,B,C...，商品之间用户会存在行为信息的关联度，这边可以参考协调过滤算法中的Item-based，核心思想在于得出用户在不同商品之间的操作行为的差异性。可以形成如下的特征矩阵：商品Xi属于商品A、商品B、...中任意一种这边相关的常见度量方式有以下几

2017-06-08 10:28:51 806

原创机器学习的价值

问题1：到底产生了什么价值？价值在于1.提供给公司或者雇主更多的利润2.提供给用户更优秀更便捷的体验3.拓宽了行业更多可能路径场景1：如果在电商平台中入驻的商家想要卖出更多的东西就需要电商平台帮住通过push、短信甚至邮件的方式引流，提醒存在潜在购买可能的用户“来来来这家店不错”，通过这种方式的收费其实是空手套白狼，投入产出比巨高那如何寻找到合适的用户推荐给合适的商家呢？以

2017-05-04 19:18:16 1952

原创常用R语言包介绍

r与python差异比较大的一个地方就是，python的机器学习算法集中程度比较高，比如sklearn，就集成了很多的算法，而R语言更多时候需要一个包一个包去了解，比较费时费力，对于python转过来的朋友非常不友好，抽空整理了工作中常用的R包如下：常用检验函数：基本上分布中常见的都罗列了：常用作图函数包：ggplot2：万能，基本上excel能画的图它都能画r

2017-04-23 08:44:40 24064

原创因子分析理论介绍

因子分析分为Q型和R型，我们是正对R型进行如下研究：一。因子分析步骤：1.确认是是否适合做因子分析2.构造因子变量3.旋转方法解释4.计算因子变量得分二。因子分析的计算过程：1.将原始数据标准化目的：消除数量级量纲不同2.求标准化数据的相关矩阵3.求相关矩阵的特征值和特征向量4.计算方差贡献率和累计方差贡献率5.确定因子F1,F2,F3...为前

2017-04-17 15:55:05 15384

原创聚类算法理论介绍

1.cost function1.1 距离常见的为欧式距离（L1 norm）&&p=2，拓展的可以有闵可夫斯基距离（L2 norm）&&p=1：当p趋向于无穷的时候，切比雪夫距离（Chebyshev distance）：红色的时候为切比雪夫距离，蓝色为闵可夫斯基距离，绿色为欧式距离。1.2相似系数夹角余弦及相关系数，相关系数不受线

2016-11-20 17:47:07 1359

原创搜索引擎风控应用

互联网中的网页可以看出是一个有向图，其中网页是结点，如果网页A有链接到网页B，则存在一条有向边A->B，下面是一个简单的示例：这个例子中只有四个网页，如果当前在A网页，那么悠闲的上网者将会各以1/3的概率跳转到B、C、D，这里的3表示A有3条出链，如果一个网页有k条出链，那么跳转任意一个出链上的概率是1/k，同理D到B、C的概率各为1/2，而B到C的概率为

2016-11-20 09:56:39 813

原创惠普实验室the Issues of Zeppelin

issue:keep pending for a long time when run the code method:check the .env at the /conf filerestart the zeppelin by ./bin/zeppelin-daemon.sh startissue: :135: e

2016-11-13 21:54:37 565

原创决策树类算法理论

熵：如果一件事有k种可的结果，每种结果的概率为 pi（i＝1…k）该事情的信息量：熵越大，随机变量的不确定性越大。信息增益：特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差换句话说，就是原信息集下的信息量－在A特征条件下的信息集的信息量信息增益越大，信息增多，不确定性减小

2016-11-13 21:39:29 5124

slade_sha的博客