baixie8779-CSDN博客

转载 Chinese NER Using Lattice LSTM-阅读总结

paper: https://arxiv.org/pdf/1805.02023.pdfcode:https://github.com/jiesutd/LatticeLSTM背景介绍：什么是NER?　　NER就是通过序列标注对实体边界和实体类别进行预测，从而识别和提取出相应的命名实体。NER模型进展：　　近5年来，使用 Deep Learning 处理 NER 问题...

2018-10-11 11:45:00 323

转载深度学习Inception

Inception的发展经历了4个版本，不太了解的童鞋可以参考：Short history of the Inception deep learning architecture第一次学习GoogLeNet网络架构就深深被Inception的设计所吸引(如下图右)，摸索着学习了部分设计灵感。　　Inception V1的原始设计如下图(左)所示。　　灵感：减少人工调整每个...

2018-02-22 18:07:00 156

转载非极大值抑制--NMS

NMS（non maximum suppression）应用：边缘检测、目标检测等。背景：绝大多数人脸检测器的核心是分类器，即给定一个尺寸固定的图片，分类器判断是否为人脸；而分类器晋升为检测器的关键是：常用滑动窗口在原始图像上从多个尺度产生窗口，并resize到固定尺寸，然后送给分类器做判断，如下图所示：目标：一个对象只保留一个...

2018-02-21 19:09:00 127

转载 CUDA简要理解

深入理解请参考：CUDA by Example: An Introduction to General-Purpose GPU Programming1.CUDA是什么？　　CUDA，Compute Unified Device Architecture的简称，由NVIDIA公司创立的基于他们公司生产的图形处理器GPUs（Graphics Processing Units,可以通...

2017-11-16 17:53:00 287

转载 Anaconda+tensorflow+pyTorch安装

Anaconda安装在清华大学 TUNA 镜像源选择对应的操作系统与所需的Python版本下载Anaconda安装包。Ubuntu环境下在终端执行　　$ bash Anaconda2-4.3.1-Linux-x86_64.sh #Python 2.7版本或　　$ bash Anaconda3-4.3.1-Linux-x86_64.sh #Python 3.5 版本...

2017-11-01 14:00:00 161

转载多层神经网络python实现

引言：神经网络在线教程有很多，如Andrew NG的deep leaning课程或者Michael Nielsen的在线教程《neural networks and deep learning》都讲述的很详细，只要认真听课，很好上手的。循序渐进构建L层神经网络：1.初始化参数 1）初始化两层神经网络参数，模型结构LINEAR -> RELU ——> LIN...

2017-10-23 21:12:00 378

转载深入解析Jieba分词源码（包括Trie存储，正向匹配，HMM，viterbi）

最近在做关于短文本的分词和自定义类别标示工作，通过调研分析Jieba源码，发现开源的分词库里融合了许多算法：Trie数对词典的存储，HMM、Viterbi对文本的序列分割和标注，正向最大匹配算法。掌握了jieba分词的原理，就可以通过优化建立一个更加完善的分词器。废话不多说了，开始进入源码分析整体1.打开jiaba开源代码__init__.py文件中就有我们常用的cu...

2017-10-23 19:59:00 214

转载最小堆排序MinHeap

MinHeap基本性质最小堆中的最小元素值出现在根结点（堆顶）；堆中每个父节点的元素值都小于等于其孩子结点（如果存在）MinHeap用途1.求一个数列中的第K大的数，建立一个大小为K的最小堆，堆顶就是第K大的数2.递归去除最顶元素，用于取top K等。MinHeap可设置容量上限N带来两个好处：内存占用可控因为上限N的存在，可提高添加和删除元素...

2017-10-23 19:55:00 187

转载推荐系统架构-(附ppt&代码）

Part1.乐视网视频推荐系统推荐系统：和传统的推荐系统架构无异（基础建模+规则）数据模块特点：用户反馈服务数据-》kv 缓存-》log存储行为日志-》解析/聚合-》session log-》cf/用户模型系统推荐流程：召回：聚类算法；tensorflow（topN）；分类，top个性化标签（微软lda）；...

2017-10-23 17:18:00 293

转载 5种方法推导Normal Equation

引言：Normal Equation 是最基础的最小二乘方法。在Andrew Ng的课程中给出了矩阵推到形式，本文将重点提供几种推导方式以便于全方位帮助Machine Learning用户学习。Notations：RSS（Residual Sum Squared error）：残差平方和β：参数列向量X：N×p矩阵，每行是输入的样本向量y：标签列向量，即目标...

2017-03-25 12:03:00 311

转载 Java程序中与MongoDB建立连接~小记

1.Mongo和MongoClient的关系MongoClient继承自Mongo，使用Mongo也可建立连接，但是需要使用与Mongo适应的MongoOptions,MongoURI等类型。2.建立连接在MongoDB Java Driver API中，要操作MongoDB的第一步和使用其他DB Java Driver类似，都需要首先和数据库建立连接。在MongoDBJav...

2017-02-03 16:49:00 153

转载海量数据集利用Minhash寻找相似的集合【推荐优化】

MinHash首先它是一种基于Jaccard Index相似度的算法，也是一种LSH的降维的方法，应用于大数据集的相似度检索、推荐系统。下边按我的理解介绍下MinHash问题背景给出N个集合，找到相似的集合对，如何实现呢？直观的方法是比较任意两个集合。当N比较小时，比如K级，Jaccard算法可以在接受的时间范围内完成，比B级，甚至P级，那么需要的时间是不能够被接受的，...

2016-12-26 11:46:00 180

转载中文分词资源

在学习nlp自然语言处理的过程中，免不了要使用中文分词资源作为分词依据或前期调研。所以想研究中文分词，第一步需要解决的就是资源问题。作为中文信息处理的壁垒，中文分词在国内的关注度似乎远远超过了自然语言处理的其他研究领域。在中文分词中，资源的重要性又不言而喻，最大匹配法（正向、逆向）等需要一个好的词表，而基于字标注的中文分词方法又需要人工加工好的分词语料库,这里大概总结出入...

2016-09-03 14:25:00 209

转载 xgboost-python参数深入理解

由于在工作中应用到xgboost做特征训练预测，因此需要深入理解xgboost训练过程中的参数的意思和影响。通过search，https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/中有很详细的解释。结合自身调参的运用，主要记录内容...

2016-08-02 19:52:00 102

转载 NMF和SVD在推荐系统中的应用（实战）

本文以NMF和经典SVD为例，讲一讲矩阵分解在推荐系统中的应用。数据item\userBenTomJohnFreditem 15505item 25034item 33403item 40053item 55445...

2016-03-01 17:56:00 189

转载浅谈隐语义模型和非负矩阵分解NMF

本文从基础介绍隐语义模型和NMF.隐语义模型”隐语义模型“常常在推荐系统和文本分类中遇到，最初来源于IR领域的LSA(Latent Semantic Analysis),举两个case加快理解。向用户推荐物品在推荐系统中，可以通过隐含语义模型将用户（user）和物品（item）自动分类，这些类别是自动生成的。这些类别也可以叫做“隐含的分类”，也许看不懂。每个用户或者...

2016-03-01 17:52:00 212

转载搜索suggestion

题目内容百度搜索框的suggestion,比如输入北京，搜索框下面会以北京为前缀，展示“北京爱情故事”、“北京公交”、“北京医院”等等搜索词。如何设计使得空间和时间复杂度尽量低。题目分析在字符串集合S中，找出相同前缀P的字符串。设size(S) = N，查询次数为M。1.朴素方案朴素得，每次查询时，遍历整个字符串集合，比较每个字符串的前缀。时...

2016-03-01 14:15:00 162

转载矩阵分解模型

导读最近在研究”基于时序行为的协同过滤算法“中重点提到了矩阵分解模型，因此总结下最近比较火的算法：矩阵分解模型。经过kddcup和netflix比赛的多人多次检验，矩阵分解可以带来更好的结果，而且可以充分地考虑各种因素的影响，有非常好的扩展性，因为要考虑多种因素的综合作用，往往需要构造cost function来将矩阵分解问题转化为优化问题，根据要考虑的因素为优化问题添加cons...

2016-03-01 14:07:00 274

转载蓄水池抽样（原理&实现）

前言：　　蓄水池抽样：从N个元素中随机的等概率的抽取k个元素，其中N无法确定。适用场景：　　模式识别等概率抽样，抽样查看渐增的log日志（无法先保存整个数据流然后再从中选取，而是期望有一种将数据流遍历一遍就得到所选取的元素，并且保证得到的元素是随机的算法）。伪代码：init : a reservoir with the size： k for...

2016-02-24 17:49:00 210