自然语言处理-生成文本
文章平均质量分 54
个人的学习过程分享,因为之前做了很多笔记,结果电脑坏了一次,笔记全丢了,以后做笔记都放线上,主要是防丢;其次是发布被别人看见了能够激励他人的努力
Zach_菠萝侠
努力学习,天天向上
展开
-
00开篇——在实践中学习,在代码中成长
更新频率:日更,每天做一个自然语言项目!!!学习脉络:看多了,就会了,不会过多的介绍理论知识,比如:自然语言处理的概念是什么?自然语言有哪些应用?一切尽在代码注释中!!!所以:不要复制代码,不要复制代码,不要复制代码。最终目标:做一个生成演讲稿生成系统,完成我这个内心的演讲家的儿时的梦想。** 有问题可以发送到邮箱:354399824@qq.com,或者自己搜索解决哦。评论区可能来不及看。**...原创 2021-09-08 09:06:31 · 58 阅读 · 0 评论 -
09transformer-xl-chinese项目解读和实践
项目:https://github.com/GaoPeng97/transformer-xl-chinese英文的话:https://github.com/kimiyoung/transformer-xl第一步 先运行起来项目自带案例看了一下,四个案例中,zhihu是最小的,所以选择zhihu作为代码运行的案例。按照readme的步骤,查看了里面的参数,没啥好调整的,看到文件路径啥的都写的好好的。如果是新建,得重新用train,这里看见了文件路径,就修改为zhihu,但等运行代码结束再点运行。原创 2022-01-08 13:35:22 · 764 阅读 · 0 评论 -
【Day5】算法专题
喜马拉雅上即将上线我的音频,我做音频识别就是想试着每期加文稿,但貌似识别效果不太行,还是用APP去弄吧…原创 2022-01-06 10:40:23 · 184 阅读 · 0 评论 -
【Day4】语音识别(音频转文字)
语音识别的三个解决方案:原本用途:本来是要求从视频中识别语音,然后把文字内容提取出来,结果看了很多项目,中文的注释,识别的却是英文,感到授课的门槛有点低,我能看懂别人开源的代码,距离自己开发还是有距离的。后来探索了很多,比如字幕生成,把字幕不生成到视频下方而是一段一段增加到txt文本里,我也认为这是最好的办法,而且能顺便给每个字、每个句子一个时间戳。后来意识到一天的时间实在是很难完成,于是从网上找了最普通的,也是不难理解的解决方案及相关代码:还是从视频转音频,再从音频转文字。一共三种方案:① speec原创 2022-01-06 08:56:54 · 4750 阅读 · 0 评论 -
【Day3】Pytorch回顾(下)
依然有问题…不知道咋了。只能将源码粘贴过来了。# 迭代1000次for epoch in range(epochs): epoch += 1 # 注意转行成tensor inputs = torch.from_numpy(x_train) labels = torch.from_numpy(y_train) # 梯度要清零每一次迭代(不清零会自动累加!!(上篇中说过)) optimizer.zero_grad() # 前向传播 outpu原创 2022-01-05 08:35:56 · 159 阅读 · 0 评论 -
【Day3】3h到5h,PyTorch回顾(上)
PyTorch的安装( 学习用CPU也能接收,真正做点事情用GPU)CPU版本安装:pip install torch1.3.0+cpu torchvision0.4.1+cpu -f https://download.pytorch.org/whl/torch_stable.htmlGPU版本安装:pip install torch1.3.0 torchvision0.4.1 -f https://download.pytorch.org/whl/torch_stable安装成功,自己装的是1原创 2022-01-04 21:11:36 · 806 阅读 · 0 评论 -
【Day2】恢复2:从1小时到3小时
Teacher Forcing原来:预测1,1教2,2教3,3教4;缺点:万一1错了,岂不对后面预测直接完了。新方法:Teacher Forcing用于训练:具体解释:先令1为True,1教2,再令2为True,2教3,以此类推。补充昨天的缺失内容:递归神经网络:输入(Input Layer)+隐层(Hidden Layer)+输出(Output Layer)输入:t1,t2,t3,t4…tn(训练过程无法考虑时间序列,每个操作独立)RNN:隐层多了一个往回的圈,把当前数据给下一次输入(有了原创 2022-01-03 15:54:59 · 1752 阅读 · 0 评论 -
【Day1】恢复一下
1原创 2022-01-02 20:44:44 · 973 阅读 · 0 评论 -
【决定考研啦!】小伙伴们再见,我准备去考研去了
2021.9.21,早上6:00,纠结了好久,决定去专心考研了。之前的自己目标不够坚定,直到现在那些“藏”在暗处的“竞争者”浮出水面,一天增加60多个同专业的报考人,自己就慌了。因此,会停更100天左右。12月底,再见。...原创 2021-09-21 06:40:18 · 69 阅读 · 0 评论 -
08【事假】后天有一场考试,所以暂时停几天(昨天,今天,明天和考试当天)
07补坑:07原本内容为最优传输入门(1.中文介绍 2. 英文原文部分精读 3.原文代码进行加注释)08补坑:08原本内容为第一篇论文中所使用的最优传输的代码重现部分(1.对应技术学习(发现B站上自然语言处理领域内与最优传输相结合的案例、代码实战都是很少的)2. 代码的实现(记得原文是有代码的,调通之后进行展示))09补坑:09原本内容为星星数量较多的github最优传输项目(1. github上应该会有大佬做专门的总结和比较,明天会进行一些检索任务,依然很轻松)0-10补坑:0系列是作为第“0”篇论原创 2021-09-16 21:40:49 · 73 阅读 · 0 评论 -
07最优传输(暂时没有看完,努力干正事儿了)
明日复明日,明日何其多。我生待明日,万事成蹉跎!!!今天开始有空的时间已经是10点了,显然胡乱编一篇是不负责任的行为。所以做些轻松的事情,那就是搜资料。根据这篇博客的https://blog.csdn.net/qq_41076797/article/details/116395936的参考文献中有1:https://www.cnblogs.com/liuzhen1995/p/14524932.html粗略的看了一下,举例子都是很生动形象的!2:https://zhuanlan.zhihu.com/p原创 2021-09-15 21:51:47 · 55 阅读 · 0 评论 -
06歌曲生成(pytorch代码来自书本)(附加一些github小技巧)
第一个:来自B站上的UP主:名字看不懂:https://space.bilibili.com/313576911视频:https://www.bilibili.com/video/BV1Tz4y1m7Vt可以先去最后一个视频的末尾10min会展示效果,感觉很不错。项目代码:https://github.com/musikalkemist/generating-melodies-with-rnn-lstm因为字幕实在是翻译的太好了,可以直接2倍速看字幕学习,但时间太紧了,没能及时看完,但是经过昨天的学原创 2021-09-14 14:15:54 · 1167 阅读 · 0 评论 -
05古诗生成项目(pytorch)(观看b站视频的笔记,代码即将实现)
项目来源:B站上的up主jucheng《基于pytorch_LSTM古诗生成》 https://www.bilibili.com/video/BV1G54y177iw真的是一个宝藏up主,讲解很详细,而且声音跟我的很像?有那么一瞬间我感觉我听见了回声,也许是错觉,也是立即点了一个关注。代码、数据可以去他的网站上领取:http://www.zifuture.com:8090/archives/jiyu-lstm-gushi-cangtoushi)下面是学习笔记,但是说实话up主在视频中手写的过程才是最大的原创 2021-09-13 20:06:46 · 2139 阅读 · 0 评论 -
04WGAN小项目(pytorch)(别人的学习为主)
学习来源学习了下面两篇文章,然后自己重新敲了一下WGAN的代码:看到文章的瞬间,就直接点了关注了:https://blog.csdn.net/wangeil007他写的GAN:https://blog.csdn.net/wangeil007/article/details/111655928他写的WGAN:https://blog.csdn.net/wangeil007/article/details/111678291顺便再加上迁移学习的内容(因为我预测后面会用到):https://blog.c原创 2021-09-12 09:57:52 · 189 阅读 · 0 评论 -
03RNN小项目(pytorch)(RNN概念理解为主)
RNN理论讲解视频推荐昨天睡前在bilibili上找了一个up主AI研习图书馆的讲解视频https://www.bilibili.com/video/BV1dZ4y1g7DE,非常简短,二倍速的话能够很快学会其概念(含公式推理过程),自己也是从第一个视频看到了跟RNN有关的最后一个视频,进行了全面的复习。借用上面视频中的两张视频中的图片:使用RNN做项目随着时代发展,pytroch越来越流行,所以专栏以pytorch为主(我的版本是1.6.0+cpu——官网下载whl(选择需要的版本,很快就下好原创 2021-09-11 09:52:06 · 479 阅读 · 0 评论 -
02论文阅读1,思路探索ing
论文0《基于生成对抗网络的文本生成的研究》作者:胡懋晗链接:https://www.doc88.com/p-39359414420190.html?r=1摘要概括:用GAN无监督生成,再做情感风格转换,最终生成文本。目标文本的语种:英文(可惜啦!!!中文就好了!!!)精读内容:研究现状——自编码器、文本生成现状、最优传输理论在DL应用、存在问题和挑战部分经典模型——本章小结部分文本生成模型情感风格转换——实验设计、模型细节部分研究现状背景信息,读小说一样轻松愉悦又有收获。原创 2021-09-10 10:22:42 · 114 阅读 · 0 评论 -
01中文分词,so easy的“第一天”。
中文分词工具及其相关网站HanLP:https://www.hanlp.com/语言云:http://www.ltp-cloud.com/NLPIR:http://ictclas.nlpir.org/新浪云:https://www.sinacloud.com/doc/sae/python/segment.html搜狗分词:https://www.sogou.com/labs/webservice/jieba分词:https://github.com/fxsjy/jiebaSCWS:https原创 2021-09-09 09:37:35 · 110 阅读 · 0 评论