NLP
JieFeiLau
术极,近乎道也。
展开
-
飞桨深度学习集训营学习心得
从去年年底参加百度飞桨集训营以来,目前学习进度已经完成了一小部分,感觉有很大的成长,弥补了自己很多不足,特写篇心得记录一下。先介绍一下背景,我原来做的是机器学习相关,数据降维中流形学习的相关研究,毕业后现在从事的是自然语言处理的工作。当时面试的时候也面试了比较多的计算机视觉的岗位,当时虽然在书本上以及视频网课学习了一些基本概念,但是一方面没有深入了解算法,代码框架等原理,另一方面也没有具体实践...原创 2020-02-21 19:44:32 · 452 阅读 · 0 评论 -
详解 Word2vec 之 Skip-Gram 模型
2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(Deep Learning)在自然语言处理中应用的普及,很多人误以为word2vec是一种深度学习算法...原创 2018-12-27 15:20:55 · 2138 阅读 · 0 评论 -
python读写excel表格(xlrd/xlwt)
最近需要做文本分类,原始数据存放在excel表格中,首先需要将数据预处理,读取出来,然后对特征列中对缺失值置0,有值的为1作为label训练分类器,作为主要记录使用过程的常见问题及解决。 python操作excel主要用到xlrd和xlwt这两个库,即xlrd是读excel,xlwt是写excel的库。可从这里下载https://pypi.python.org/pypi。下面分别记录pyth...原创 2018-12-29 10:44:21 · 436 阅读 · 0 评论 -
结巴分词原理及使用
目前常用的分词工具很多,包括盘古分词、Yaha分词、Jieba分词、清华THULAC等,现在项目使用的分词方法是结巴分词,本次来介绍一下。安装就不说了可以直接pip install jieba或者pycharm的setting中添加即可。通过 import jieba 来引用如下为jieba代码结构及子目录与相应功能的对应;.├── analyse # 短语抽取模块│ ├──...原创 2018-12-25 10:49:04 · 26460 阅读 · 3 评论 -
最大熵模型
熵熵H(X)又称自信息,是描述一个随机变量不确定性大小的量,熵越大则不确定性越大,则需要用更多的信息量来消除这种不确定性。前面《浅谈机器学习基础》中讲决策树的时候就提到了香农熵。在只掌握关于未知分布的部分知识的情况下,符合已知知识的概率分布可能有多个,但使熵值最大的概率分布真实的反映了事件的分布情况。以此为依据构建的模型叫做最大熵模型,后面会详细讲,这里只做简单介绍。然后是联合熵H(X...原创 2019-04-02 10:11:16 · 284 阅读 · 0 评论 -
中文文本标注工具调研以及BRAT安装使用
背景:最近的工作需要对文本先进行标注,然后才可以做接下来的文本分类工作。原来文本数量少的时候可以手工标注,随着文本数量的增多,需要借助标注工具,调研了目前常用的几种:更多详细信息请联系https://www.jianshu.com/u/50ba27f06c3d1,BRAThttps://github.com/nlplab/brat首先是BRAT,http://brat.nlpl...原创 2019-04-16 16:54:51 · 21708 阅读 · 46 评论