NLP
Jack_Kuo
https://github.com/JackKuo666
展开
-
【NLP】: 文本挖掘、文本聚类、热词发现流程图
原创 2021-09-09 19:21:08 · 1096 阅读 · 0 评论 -
【NLP挑战赛】:3、基于TensorFlow2.5从零开始训练一个bert
如题,我们在参加一些比赛如:零基础入门NLP - 新闻文本分类的时候,由于比赛的数据集是脱敏的,所以如果需要使用预训练模型的时候,只能从头训练一个模型,而不能使用预训练模型,这里使用最新版的TensorFlow进行训练。代码在我的Github仓库:train_bert_from_egg_with_tensorflow训练过程如下:pip注意:这里需要使用TensorFlow==2.5.0 需要以下依赖:# tensorflow-gpu >= 2.5.0 # GPU version of原创 2021-08-12 11:13:25 · 631 阅读 · 4 评论 -
【NLP挑战赛】:2、基于现有数据进行预训练语言模型的预训练
如题,我们在参加一些比赛的时候,有一些数据是特定预料,我们在后续使用预训练模型的之前可以针对这部分数据先进行语言模型的再训练。这个过程分为两步:1、数据处理将train,dev(如果有的话),test 数据处理成MLM模型可以加载的形式。import warningsimport pandas as pdwarnings.filterwarnings('ignore')train_data = pd.read_csv('data/chinese_question_sim/train.csv原创 2021-08-12 11:01:41 · 492 阅读 · 0 评论 -
【NLP挑战赛】:1、基于sklearn的train数据拆分为train&dev
如题,在训练一些模型的时候,只有train数据,需要我们手动拆分为train&dev,来进行模型的验证。这里使用一个sklearn的简单方法。import loggingimport pandas as pdfrom sklearn.model_selection import train_test_splitlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s %(levelname)s: %(message)s')原创 2021-08-12 10:50:37 · 408 阅读 · 0 评论 -
【AllenNLP入门教程】: 2、基于Allennlp2.4版本的一些使用技巧
1.依赖python == 3.8.0allennlp == 2.4.0pip install allennlp -i https://pypi.tuna.tsinghua.edu.cn/simple2.使用lazy注意:在使用大数据进行训练的时候使用lazy模式是极其重要的,但是记得使用lazy模式之前需要进行数据的按照label的分布进行总体数据的shuffle,使得在训练的数据整体上是分布均匀的。这个可以使用sklearn实现,参考这里这里需要知道默认的dataset_loader是原创 2021-08-12 09:51:26 · 1109 阅读 · 0 评论 -
【AllenNLP入门教程】: 1、基于Allennlp2.4版本的文本分类
前言之前写过【AllenNLP】专栏学习allennlp 框架的一个入门中文教程,最近看的时候发现现在的版本已经从0.8升级到2.6了,升级内容见这里,可以看到有很多内容已经不适应了,所以根据官网最近的教程写了新的中文教程。本教程可以实现:基于movie review 的文本分类,包括:1、使用python脚本train、eval、predict2、使用Allennlp命令行train、eval、predict3、分别使用lstm模型、bert模型进行训练代码代码在:https://githu原创 2021-07-25 18:50:13 · 1097 阅读 · 1 评论 -
【NLP】Python的Web框架Flask + Vue + wordcloud + jieba 生成漂亮的中文词云
先看效果:具体过程参考:Python的Web框架Flask + Vue 生成漂亮的词云其中的后端部分需要一些修改来完成中文词云的生成。具体代码请参考GitHub:原创 2021-05-20 16:35:30 · 811 阅读 · 0 评论 -
re模块的基本函数
2.3 finditerfinditer( rule , target [,flag] )参数同findall返回一个迭代器finditer函数和findall函数的区别是,findall返回所有匹配的字符串,并存为一个列表,而finditer则并不直接返回这些字符串,而是返回一个迭代器。关于迭代器,解释起来有点复杂,还是看看例子把:>>> s=’111 222 3...原创 2019-04-30 16:13:40 · 239 阅读 · 0 评论 -
【Python自然语言处理】读书笔记:第四章:编写结构化程序
4 编写结构化程序4.1 回到基础1、赋值:列表赋值是“引用”,改变其中一个,其他都会改变foo = ["1", "2"]bar = foofoo[1] = "3"print(bar)['1', '3']empty = []nested = [empty, empty, empty]print(nested)nested[1].append("3")print(nes...原创 2019-05-04 21:05:12 · 1915 阅读 · 0 评论 -
常见的32项NLP任务以及对应的评测数据、评测指标、目前的SOTA结果以及对应的Paper
常见的32项NLP任务以及对应的评测数据、评测指标、目前的SOTA结果以及对应的Paperhttps://blog.csdn.net/weixin_39012047/article/details/84452713转载 2019-04-27 21:25:09 · 1338 阅读 · 0 评论 -
【关于NLP讲座的笔记】
雷鸣:好,有同学问,NLP 和创业相结合的话,有什么比较值得做的东西?李航:这是个很好的问题。人工智能还是要跟具体的业务结合起来。自然语言处理也一样。这是第一个要定。第二个要点我刚才其实也讲到了,你需要去判断,你做的NLP 系统其性能能达到的上界,和你面对的需求所要求的性能的下届是否能对上?这是非常重要的一个判断。如果你预测未来技术发展到某个阶段,能使上界提高到满足或超过需求下界的水平,就可以考...原创 2019-05-01 17:20:39 · 325 阅读 · 0 评论 -
【NLP】:1.文本分类之代码篇
代码我放在我的github:引言文本分类是商业问题中常见的自然语言处理任务,目标是自动将文本文件分到一个或多个已定义好的类别中。文本分类的一些例子如下:分析社交媒体中的大众情感鉴别垃圾邮件和非垃圾邮件自动标注客户问询将新闻文章按主题分类#导入数据集预处理、特征工程和模型训练所需的库from sklearn import model_selection, preproces...原创 2019-01-08 21:54:14 · 6645 阅读 · 2 评论 -
【NLP】:2.QA
https://blog.csdn.net/u013783249/article/details/82013507http://www.52nlp.cn/qa问答系统中的深度学习技术实现有空做一个专题学习学习原创 2019-01-08 20:51:49 · 356 阅读 · 0 评论 -
bert学习
1.https://mp.weixin.qq.com/s/FHDpx2cYYh9GZsa5nChi4g2.http://t.cn/Eqf3YIT3.http://t.cn/Eqf17uV4.http://t.cn/Eqf1MoV5.https://github.com/JackKuo666/NLP-BERT--ChineseVersion原创 2019-01-12 21:33:30 · 298 阅读 · 0 评论 -
【NLP】:1.文本分类
【重点看这个,有数据有代码,可实现】:手把手教你在Python中实现文本分类(附代码、数据集):https://blog.csdn.net/Tw6cy6uKyDea86Z/article/details/80416475知乎的一个介绍,但是没有数据:https://zhuanlan.zhihu.com/p/27447133搜狗数据:https://www.sogou.com/labs/reso...原创 2019-01-05 19:34:09 · 1233 阅读 · 1 评论 -
【系统学习NLP】每日笔记
2018年11月28日:1.CS224n笔记9 机器翻译和高级LSTM及GRU2.https://github.com/fengdu78/lihang-code/blob/master/code/第1章 统计学习方法概论(LeastSquaresMethod)/least_sqaure_method.ipynb3.https://github.com/MLjian/TextClassific...原创 2018-11-28 23:24:16 · 250 阅读 · 0 评论 -
【NLP】cs224n课程笔记
作业1一、前言自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。 通过经典的斯坦福cs224n教程,让我们一起和自然语言处理共舞!也希望大家能够在NLP领域有所成就!二、先修知识(学习的过程中可以遇到问题后再复习)了解python基础知识了解高等数学、概率论、线性代数知识了解基础机器学习算法:梯度下降、线性回归、逻辑回归、Softm...原创 2018-10-28 13:13:32 · 11276 阅读 · 5 评论 -
【读书笔记】:算法图解
1.二分查找仅当列表是有序的时候,二分查找才管用。例如,电话簿中的名字是按字母顺序排列的,因此可以使用二分查找来查找名字。原创 2018-10-22 20:47:12 · 158 阅读 · 0 评论 -
【笔记】nlp
1.Distant Supervision——远程监督1定义:只要包含两个Entity(实体)的句子,都在描述同一种关系。用途:主要用来为关系分类任务扩充数据集。优点:能够很快速地为数据集打上标签缺点:它假设只要包含两个Entity的句子,都在描述同一种关系,这个假设会产生很多地错误标签。可能这两个Entity这是与某个主题有关。 因此往往还需要用一些过滤的方法去筛选出对关系分类有用的句子...原创 2018-09-25 21:34:34 · 440 阅读 · 0 评论