NLP
文章平均质量分 93
六神就是我
万物不仁,天地为刍狗
展开
-
SDMG-R模型学习笔记
商汤出的算法,用于KIE,集成在mmocr包里,需要搭配mmcv一起使用,题外话,mmcv用了hook编程,调试起来还是蛮难的,以后有空再分享下mmcv的框架逻辑。模型结构整体结构可分为三个模块:双模态融合模块、图推理模块和分类模块三个。模型的输入数据由图片、对应文本检测坐标区域、对应文本区域的文本内容构成,如:{"file_name": "xxxx.jpg", "height": 1191, "width": 1685, "annotations": [{"box": [566, 113, .原创 2022-02-19 10:25:24 · 3360 阅读 · 2 评论 -
sentencePiece入门小结
环境搭建1.安装C++源码版step1 安装环境依赖ubuntu系统:sudo apt-get install cmake build-essential pkg-config libgoogle-perftools-devcentos系统:sudo yum install cmake pkg-config gperfools-devel注:如果之前安装过cmake,但是3.1...原创 2019-06-10 16:53:32 · 15154 阅读 · 9 评论 -
PyText入门(环境搭建和demo实现)
简介12月15日,facebook宣布开源PyText NLP框架。 PyText是一种基于深度学习的NLP建模框架,基于PyTorch 1.0构建。它可以连接 ONNX 和 Caffe2,借助 PyText,AI 研究人员和工程师可以把 PyTorch 模型转化为 ONNX,然后将其导出为 Caffe2,用于大规模生产部署,让模型的建立,更新,发布更加便捷。项目地址:https://gith...原创 2018-12-21 15:53:34 · 4057 阅读 · 3 评论 -
使用Clion调试fastText源代码
前言 最近在导师的带领下开始研究fastText,fastText是由Facebook开源的快速文本分类器,比深度学习快了很多,一般深度学习要4,5个小时才能跑出来的大文本分类,fastText只要数十秒就能跑出来,而且效果比起深度学习来说也差不了多少。可以说是对于一些设备配置没那么好的研究是个福音。然后呢,导师布置了一个任务,既然是研究僧,那么就去深入研究吧!骚年! 好的,既然要读懂源代码,那原创 2017-07-06 12:25:11 · 1794 阅读 · 2 评论 -
爬取bilibili弹幕制作词云
最近有部剧的片花看的很燃,正好我又是主演的fans,于是手痒忍不住把该片的弹幕爬取下来做个词云玩一玩。step 1 获得弹幕的XML文件 B站上的弹幕在静态页面上是没有的,所以还需要费点劲去找。 打开我们的目标视频:http://www.bilibili.com/video/av9979006/?from=search&seid=533845265855630872 右键源代码,然后再CTRL原创 2017-04-24 11:04:46 · 7095 阅读 · 5 评论 -
使用pysolr库操作solr(二 打造属于自己的搜索引擎)
之前有文章讲了基础的如何使用pysolr1操作solr,以及如何使用haystack编写属于自己的搜索引擎,但是呢,老大来了命令,现在是2017年了,咱们不用solr 3那种老版本,就用solr5吧!嘤嘤,也就是说不能直接用haystack框架,要自己写一个了。于是乎,搞事开始。1.环境版本 Django:1.8 (可直接使用pip,指定版本) pysolr:3.6.0 (可直接使用pip,指定原创 2017-03-18 23:11:06 · 3693 阅读 · 3 评论 -
使用pysolr库操作solr(一)
1.环境准备 首先需要在本地安装好solr和pysolr。 solr现在更新到了6代,出于稳定性和pysolr兼容性的考虑,选择使用5.0.0版本,下载地址:http://archive.apache.org/dist/lucene/solr/5.0.0/。 至于如何安装以及对solr的初次体验,可以看我之前转载的文章: 【Apache Solr入门教程(初学者之旅) 】 http://bl原创 2017-02-24 18:52:32 · 6913 阅读 · 1 评论 -
Apache Solr入门教程(初学者之旅)
写在前面:本文涉及solr入门的各方面,请逐行阅读,相信能帮助你对solr有个清晰全面的了解并能简单实用。在Apache Solr初学者教程的这个例子中,我们将讨论有关如何安装最新版本的Apache Solr,并告诉你如何配置它。此外,我们将告诉你如何进行使用solr的样本数据文件索引。Apache Solr支持不同格式,包括各种数据库,PDF文件,XML文件,CSV文件等等。在这个例子中,我们将研转载 2017-02-24 10:41:00 · 1322 阅读 · 0 评论 -
solr在windows下的安装及配置
首先,solr是基于Java开发的,所以使用的话需要先进行java环境的配置,在Java环境配置好之后就可以去http://www.apache.org/dyn/closer.lua/lucene/solr/5.4.1这里下载solr了,我是在Windows下使用的。点击进去下载地址可以看到有三种不同格式的下载文件(src.tgz、.tgz 、.zip), 其中: 1. src.tgz:带s转载 2017-02-23 17:01:28 · 570 阅读 · 0 评论 -
使用Django haystack集成solr编写搜索引擎(一)
1.环境配置 这一点很重要!请一定看仔细了!就是由于版本的不匹配,导致本博花了一天的时间在debug上,虽然solr 5.0.0的版本界面好看,然而不兼容haystack,这一点在踩过坑的人debug时得到了验证,haystack源码中solr_backend中有这么一段注释: 之后本博尝试去修改框架中的代码,力图让其能够和solr 5 兼容,但实在能力有限,无法读懂haystack里面得弯原创 2017-03-01 15:30:55 · 1274 阅读 · 2 评论