自然语言处理
Leslie_Leung
这个作者很懒,什么都没留下…
展开
-
BLEU的php实现
参考:http://www.nltk.org/_modules/nltk/align/bleu_score.html,https://blog.csdn.net/Allocator/article/details/79657792,https://blog.csdn.net/guolindonggld/article/details/56966200参考NLTK和BLEU的公式实现的php版本BLEU计算,目前能够计算一个candidate对应一个reference的BLEU。(虽然通常会有多个ref.原创 2021-04-20 14:03:35 · 207 阅读 · 1 评论 -
mysql导入超大csv指南
mysql导入超大csv指南文章目录mysql导入超大csv指南需求描述失败方法正确食用方法其他处理超大csv的经验需求描述手头下载了一个比较大(400Mb+)的语料数据,需要从里面提取出某两种语言的句子对,因为数据特别大,且csv并非标准以逗号分隔而是以tab分隔,尝试用Navicat的导入向导导入失败。另外以后也可能会有处理超大csv的场景,mark一下方法备用。失败方法一开始打算直接用Navicat进行导入,尝试了一下输入向导。这里一个坑点:如果你选择csv格式,字段分隔符是不可选的,如原创 2020-08-31 00:41:16 · 2096 阅读 · 0 评论 -
TextRNN实现文本分类
TextRNN实现文本分类任务介绍给定一个如下的外卖评论的数据(1w条),训练模型分类好评和差评。思路给出的baseline为0.82(F1),方法是将语料中所有字拆开训练成300D的word2vec后,每一句的处理采用将所有字的向量相加取平均的方法得到句向量(300D),然后使用一个全连接层进行训练。优化的思路自然就是从这个方法的缺点入手,主要的提升点有:把所有的字拆开进行训练可...原创 2020-03-10 21:30:19 · 1769 阅读 · 1 评论 -
selenium+beautifulsoup+pandas爬取百度学术
环境requirements:BeautifulSoupselenium(with headless Chrome)pandasBeautifulSoup用来解释html,用selenium代替requests进行请求(原因后面会讲到),用pandas存储搜索页url打开百度学术输入关键字回车后可以看到当前的url是http://xueshu.baidu.com/s?wd=自然语...原创 2019-05-21 14:29:01 · 2247 阅读 · 0 评论 -
TensorFlow解决MNIST数字识别问题
TensorFlow解决MNIST数字识别问题废话这个MNIST数字识别问题是我实现的第一个神经网络,虽然过程基本上都是对着书上的代码敲,但还是对神经网络的训练过程有了一定的了解,同时也复习了前面几章关于TensorFlow和神经网络的一些基本概念。MNIST介绍MNIST是一个非常有名的手写体数字识别数据集,通常用来作为深度学习的入门样例。MNIST的数据集可以在http://yann...原创 2019-08-11 16:37:26 · 777 阅读 · 0 评论