![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
工作
yalicsurpi
这个作者很懒,什么都没留下…
展开
-
数据清洗笔记
工作上接触到的数据特别脏主要体现:1.OCR识别精度2.人工乱给label,同一个数据能给三种不同的label 主要清洗方法:1.模型特定的预测概率表示完全匹配(如:0.82828)2.所有特征值>0.99,给全分;所有特征值<0.01,给0分3.人工筛选 希望能找到更加适合的方式 清理工具(还没有测试):OpenRefine: re...原创 2018-07-23 10:59:50 · 180 阅读 · 0 评论 -
NLTK的分词器
最近在做nlp的任务,经常会用到分词。有个问题:nltk的word_tokenizer和直接使用split(' ')感觉效果是类似的,而且还会出现can't这类的词被word_tokenizer切分成ca n't。这样看来,以后分词就直接使用split(' ')更加高效和正确么???...原创 2018-08-08 00:15:59 · 1732 阅读 · 0 评论 -
工作书签
redis冷热数据分离https://blog.csdn.net/stonenie/article/details/54708363黑白照片AI上色https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/82393433OCR手写字体和印刷字体https://blog.csdn.net/plfl520/arti...原创 2018-08-31 11:21:03 · 1857 阅读 · 0 评论 -
python实现word批注 pandoc和pypandoc
pypandoc就是pandoc的pip包版本接下来说一说在mac和ubuntu安装的时候出现的问题 在mac和ubuntu都出现了问题:系统自带1.19.2.1pandocMac: brew uninstall pandoc之后,利用pandoc --version仍然存在1.19.2.1 pandocUbuntu: sudo apt-get autoremove --pur...原创 2018-09-12 09:48:54 · 2423 阅读 · 0 评论