NLP
文章平均质量分 58
little豪斯
这个作者很懒,什么都没留下…
展开
-
python中文分词教程之前向最大正向匹配算法详解
见链接https://www.jb51.net/article/127404.htm -转载 2018-06-30 16:34:27 · 1946 阅读 · 0 评论 -
关于fasttext的一点体会
最近用到fasttext,这里简单总结一下 1: fasttext能干什么? ① 文本分类 ② 词向量训练 2: fasttext原理 fasttext和word2vec的作者是一个人,fasttext和word2vec中的CBOW的原理基本相同,不同的地方后面说 这个链接里面总结的很详细,可以参考这里 word2vec中的数学原理详解 fasttext模型架构 这里的输入x1,x2,…xN是多...原创 2018-10-26 15:11:13 · 961 阅读 · 0 评论 -
IKAnalyzer流程总结
前段时间做Lucene相关的搜索引擎,它自带的中文分词工具不是很好,所以用到了IKAnalyzer,IKAnalyzer是林良益前辈开发的中文分词工具,它是基于词典的分词器,我花了一些时间看源码,简单总结一下流程: 1:加载词典 IKAnalyzer中主要包括3个词典:主词典,量词词典和停词词典 字典是以字典树(前缀树)存储的,当子节点树<3时,用数组存储(二分查找),节约存储空间,当子节点数>3...原创 2018-10-26 15:35:23 · 1627 阅读 · 0 评论 -
全文检索以及Lucene原理的理解
Lucene是一个基于Java的高效的全文检索库,用一句大白话来说,它就是一种用来快速查找单词的工具。 在了解Lucene原理之前我们先了解一下全文检索,那么问题来了,什么叫全文检索? 1:什么是全文检索 就我们日常生活中的数据来说,可以分为结构化数据和非结构化数据. 所谓结构化数据,就是有固定格式或者有限长度的数据,比如数据库,元数据等。 所谓非结构化数据,就是不定长,无固定格式的数据,比如邮件...原创 2018-10-29 17:24:50 · 3916 阅读 · 0 评论 -
自然语言处理基本概念
由于在NLP这块完全是个新手,刚开始什么都不懂,现在有时间记录下来,以后也好回顾。 1:词向量(词表示) 用某个固定维度的向量去表示单词,把单词映射到某个维度(eg:100维)的空间中去。 为什么要变成固定维度的向量呢? 因为大多数机器学习模型需要固定维度的向量作为输入。 语言学中的规律:相似的单词有相似的上下文。所以目前主流的词向量模型都通过单词在语料中的上下文来表示单词。对单词与上下文的关系进...原创 2018-10-30 12:38:59 · 944 阅读 · 1 评论 -
记录Eclipse Memory Analyzer测试内存泄漏
一次项目中现场反映有内存泄漏,我刚好负责测试这个部分,这里简单记录一下。 1:内存泄漏是什么? 内存泄露 memory leak,是指程序在申请内存后,无法释放已申请的内存空间,一次内存泄露危害可以忽略,但内存泄露堆积后果很严重,无论多少内存,迟早会被占光。可以了解一下Java的GC机制(Garbage Collection,垃圾回收)。 2:怎么测? 当时我启动项目服务,然后top 一下,看项目...原创 2018-10-30 13:05:41 · 428 阅读 · 0 评论 -
Apache ant 一键出包 + junit
之前有个项目要搞成一键出包,在这里简单记录下,只记录思想,原因你懂的。 第一次接触一键出包,查了半天资料才知道。 要用到Apache ant,这个自行在eclipse安装配置吧。 ant运行需要xml(构建文件),通过调用target树就可以执行各种task。 xml文件大概结构就是下面介个样子: ps:不知道为什么打<>里面的内容就被屏蔽了,所以拿个草稿纸写一写吧。 第一行的pro...原创 2018-10-30 14:11:10 · 212 阅读 · 0 评论