NLP
yalicsurpi
这个作者很懒,什么都没留下…
展开
-
数据清洗笔记
工作上接触到的数据特别脏主要体现:1.OCR识别精度2.人工乱给label,同一个数据能给三种不同的label 主要清洗方法:1.模型特定的预测概率表示完全匹配(如:0.82828)2.所有特征值>0.99,给全分;所有特征值<0.01,给0分3.人工筛选 希望能找到更加适合的方式 清理工具(还没有测试):OpenRefine: re...原创 2018-07-23 10:59:50 · 186 阅读 · 0 评论 -
pip包grammer-check,运行中出现ServerError: connection reset by peer
1.1python 3.6 Ubuntu试一次(could not find a version that satisfies the requirement grammar-check(from versions:))尝试直接clone 源码,python setup.py install。✅1.2 python3.4 Ubuntu试一次,(could not find a version ...原创 2018-07-23 11:28:37 · 614 阅读 · 0 评论 -
NLTK的博客学习笔记
NltkNP: noun phraseVP: verb phrasePP: preposition phrase 文法用途语言基本可以说是由修饰结构和并列结构拼接而成(不喜勿喷)。比如下面这样不断的扩充:he ran he ran there he saw it there the bear saw the font in it显然正常的句子是第四句,如果...转载 2018-07-22 21:18:08 · 223 阅读 · 0 评论 -
句子的语法检查
参考了stackoverflow的一篇文章以及他人的建议,尝试了以下方法:1.ATD❌(测试了几个本地的句子,无效)2.LanguageTool✅(pip包)3.Ginger❌(web service,不是python包)4.Microsoftword or Libre office(没有尝试)5.open office: GRAC(没有尝试)6.grammar-check...原创 2018-07-22 21:26:08 · 1984 阅读 · 0 评论 -
NLTK的官网
nltk.org 这周粗略地看了Analyzing sentence structure, syntax tree NLTK book chapter 8 for parsing Precise control over what is considered grammatical --> use context-free parser with NLTK W...原创 2018-07-22 21:29:17 · 627 阅读 · 0 评论 -
N-gram mode笔记l(分词算法)
N-gram model(在模糊匹配中的应用)最常用的是bigram, trigram,高于4元的用的不多,训练需要更庞大的语料,而且数据稀疏严重,时间复杂度高,精度提升却不多 我的理解:n-gram 分词就是把字符串按照N,切分成多个子字符串,每次移动一位。 非重复的n-gram分词为基础又可以得到N-gram距离:两个字符串的n-gram集合 - 2*(两个字符串的子字...原创 2018-07-22 21:32:11 · 1845 阅读 · 0 评论 -
NLP的经典书
1.Natural language Processing with Python2.Python Text Processing with NLTK 2.0 Cookbook Jacob 下周末可以找一本看完原创 2018-07-22 22:00:44 · 1050 阅读 · 0 评论 -
NLTK的分词器
最近在做nlp的任务,经常会用到分词。有个问题:nltk的word_tokenizer和直接使用split(' ')感觉效果是类似的,而且还会出现can't这类的词被word_tokenizer切分成ca n't。这样看来,以后分词就直接使用split(' ')更加高效和正确么???...原创 2018-08-08 00:15:59 · 1736 阅读 · 0 评论 -
python实现word批注 pandoc和pypandoc
pypandoc就是pandoc的pip包版本接下来说一说在mac和ubuntu安装的时候出现的问题 在mac和ubuntu都出现了问题:系统自带1.19.2.1pandocMac: brew uninstall pandoc之后,利用pandoc --version仍然存在1.19.2.1 pandocUbuntu: sudo apt-get autoremove --pur...原创 2018-09-12 09:48:54 · 2436 阅读 · 0 评论 -
Ubuntu 16.04 + Nvidia 410.78 + CUDA 9.0 + cuDNN 7.3.1 + Python 3.6 + Tensorflow 1.11.0成功出坑
走了好多坑,终于把深度学习的环境给搭好了首先感谢这两位博主的无私奉献,我是综合他们的方法安装成功的,本文有些步骤直接复制以下博文https://blog.csdn.net/qq_35976351/article/details/79325476https://www.cnblogs.com/xuliangxing/p/7575586.htmlhttp://www.cnblogs.c...原创 2018-12-13 09:58:12 · 1428 阅读 · 0 评论