自然语言处理
weixin_38616018
这个作者很懒,什么都没留下…
展开
-
当我尝试写一个自动写小说的AI,长路漫漫的踩坑之路 ToT
起因事情是这样的,前几天我在刷B站的时候看到一个大佬用训练了一个自动写高考作文的AI链接: https://www.bilibili.com/video/BV1pr4y1w7uM?from=search&seid=3451527309155759796那我就想既然别人能训练自动写作文的AI,那我就训练一个自动写小说的AI帮我自动赚稿费。挑战我也去github上clone了仓库,看了看效果还不错,是我也可以做的但是有那么几个问题费用费用是我承担不起的,我看了一下他的模型,一共17亿原创 2020-11-01 02:10:01 · 34173 阅读 · 25 评论 -
词向量训练
如何训练你自己的词向量这里我直接实现了Distributed Representations of Words and Phrases and their Compositionality这篇论文他没有采用层次的哈弗曼树,而是使用了负列采样,这也是工业界用的比较多的一种方法模型采用Skip-gram这篇论文有很多模型实现的细节,这些细节对于词向量的好坏至关重要。主要是由于计算资源等各种细节原因,我无法复现论文中的实验结果,但是还是可以大致展示如何训练词向量。这边用了GPU版的pytouch,我的显卡原创 2020-07-03 20:24:01 · 589 阅读 · 0 评论 -
自然语言处理入门学习笔记3:词向量
词向量为什么需要词向量1.词向量可以大量的预料中拿到一些对知识表达的方式2.无法直接对文本进行计算,文本是标记性语言,计算机对数字比较敏感,词向量吧文字转成了数值向量词编码方式从语言模型n-gram到TF-IDF的权重到Word2Vec到Doc2Vec词编码需要保证词的相似性如果用one-hot编码我们得不到词于词之间的关系比如一些近义词向量比较近表达足够准确你的数据决定结果上线你的算法决定多逼近上线One-hot表示每一个单词有唯一索引词典中的顺序和句子中的顺序无关词袋原创 2020-06-24 14:59:36 · 580 阅读 · 0 评论 -
自然语言处理入门学习笔记1:从朴素贝叶斯到语言模型N-gram
第一章:中文分词 jieba关键词提取 tf-idf #tankage正则表达式第二章朴素贝叶斯模型统计垃圾邮件词袋子模型简单粗暴蠢萌统计词出现次数sklearn.feature_extraction.text.countVectorizer原创 2020-06-12 23:13:43 · 244 阅读 · 0 评论 -
自然语言处理入门学习笔记2:深度学习与NLP
深度学习与nlp三种算法文本分类:Test->Lable行业baseline:用bow表示句子然后用lr或svm做回归,用你的模型对比库:深度学习keras自然语言处理gensim自编码器已经学过了好像玻尔兹曼机呗1.聚类?2.降维历史进程数据降噪,数据降维会陷入局部最优解![在这里插入图片描述](https://img-blog.csdnimg.cn/20200618233222478.png?x-oss-process=image/watermark,type_原创 2020-06-19 21:47:51 · 254 阅读 · 0 评论