![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
人工智能
文章平均质量分 61
任菜菜学编程
暂无
展开
-
2019年CS224N课程笔记-Lecture 20:The Future of NLP+Deep Learning
资源链接:https://www.bilibili.com/video/BV1r4411f7td?p=20正课内容5年前NLP的深度学习No Seq2Seq No Attention No large-scale QA/reading comprehension datasets No TensorFlow or Pytorch深度学习+NLP的未来利用无标签数据 Back-translation 和 无监督机器翻译 提高预训练和GPT-2 接下来呢? NLP技术的..原创 2020-09-14 19:48:01 · 2502 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 19:Safety, Bias, and Fairness
资源链接:https://www.bilibili.com/video/BV1r4411f7td?p=19正课内容对于现实中的这种香蕉我们倾向于不提黄色(第一次看这个图的时候很少/几乎没有有人说黄色),因为黄色是他的原型(绿色和斑点则不是)原型理论分类的目的之一是将刺激之间的无限差异缩小到行为和认知上可用的比例物品可能有一些核心的原型概念,这些概念来自于存储的对象类别的典型属性(Rosch,1975)也可以存储样本/存储范例?(感觉翻译的不是很理解)(Wu&原创 2020-09-12 00:52:01 · 2141 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 18:Constituency Parsing
资源链接:https://www.bilibili.com/video/BV1r4411f7td?p=18正课内容1. The spectrum of language in CS 词袋模型<-------------------------- ----- -------------------->复杂形式的语言表达结构这是真.词‘袋’语言的语义解释——不仅仅是单词向量我们怎样才能弄清楚更大的短语的含义?例...原创 2020-09-10 00:01:23 · 1101 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 17:Multitask Learning
资源链接:https://www.bilibili.com/video/BV1r4411f7td?p=16正文内容现在有一种想法比较流行:在一个模型中完成10个不同的任务(十项全能比赛)把所有预处理后发现可能对于一个词在不同的模型中含义是不一样的NLP&AI的下一步是什么?基于特征工程的机器学习->特征学习的深度学习->针对单个任务的深层架构工程->?单任务学习的局限性鉴于{dataset,task,model,metric},近年来性能得到了很大改原创 2020-08-22 19:40:50 · 604 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 16:Coreference Resolution
资源链接:https://www.bilibili.com/video/BV1r4411f7td?p=16正课内容What is Coreference Resolution?/什么是共指消解?识别所有涉及到相同现实世界实体的提及,指的是在一短文本内多个表达段/句子指向现实世界中的同一个实体,例如下属例子这一段话中有许多实体(蓝色部分),其中许多实体指的是同一个人/现实中的事物,例如:红色部分和橙色部分全部指向现实中的人物/事物,再例如不同颜色代表不同的实体,不光是人,还原创 2020-08-08 22:40:02 · 1028 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 15:Natural Language Generation
资源链接:https://www.bilibili.com/video/BV1r4411这节课讲的是文本生成(是一个超级超级广的概念,几乎各个地方都可以牵扯到),NLG甚至每个方面都可以开创一个讲座正课内容之前我们所说的机器问答并不是NLG,因为他只是提取答案一些疑问回答:语言模型/LM是根据目前已有的文本生成下一个词的模型,如果这么模型是使用RNN完成的,则称为RNN-LM。...原创 2020-08-05 21:31:37 · 2104 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 14: Transformers and Self-Attention
资源链接:https://www.bilibili.com/video/BV1r4411(np带个妹子让课堂不尴尬~)正课内容可变长数据的表示,也就是序列学习的基本使用组件,主要包括神经机器翻译,摘要,问答等项目通常使用 RNN 学习变长的表示:RNN 本身适合句子和像素序列,LSTMs, GRUs 和其变体在循环神经网络模型中占主导地位。但是序列计算抑制了并行化(RNN也是这个缺点),没有对长期和短期依赖关系进行显式建模。我们想要对层次结构建模,RNNs(顺序结构)看起来很...原创 2020-07-31 00:46:28 · 477 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 13: Contextual Word Representations and Pretraining
资源链接:https://www.bilibili.com/video/BV1r4411之前大部分都是课件内容翻译+自己的一些总结,以后更倾向于自己的总结咯~正课内容词的表示方法一开始时学过的单词向量 Word2vec, GloVe, fastText都可以表示词,甚至是ont-hot编码也可以表示(只不过不是很恰当)两个人大概花了七周时间训练无人监督的单词表示/词向量,生成的向量只有100维(也就是图中88.87的那个),几乎和基于特征的分类器效果一样好,后面一些人机遇这个又进行改原创 2020-07-28 10:09:44 · 2435 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 12: Subword Models
资源链接:https://www.bilibili.com/video/BV1r4411正文内容人类语言声音:语音学和音韵学(Phonetics and phonology)(课件内容,不是很懂。。。)Phonetics 语音学是一种音流——物理学或生物学 Phonology 语音体系假定了一组或多组独特的、分类的单元:phoneme音素 或者是独特的特征 这也许是一种普遍的类型学,但却是一种特殊的语言实现 分类感知的最佳例子就是语音体系 音位差异缩小;在音素之间被放大...原创 2020-07-24 00:38:46 · 697 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 11: ConvNets for NLP
资源链接:https://www.bilibili.com/video/BV1r4411想看书吗推荐了一本书~可以自己去了解了解正课内容本周主要是CNN专题从RNNs到卷积神经网络递归神经网络不能捕获没有前缀上下文的短语经常在最终向量中捕获太多的最后单词,如下图例如,如上图,softmax通常只在最后一步计算卷积网络的主要想法:如果我们为每个可能的子序列计算一定长度的向量呢?例如:“tentative deal reached to keep government原创 2020-07-21 23:53:50 · 805 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 10: Question Answering
正文内容当我们在谷歌浏览器中搜索澳大利亚第三任总统是谁时,谷歌浏览器会告诉我们答案,这就是一个问答系统而且这是通过我们提问语句的特征进行回答的,而不是基于结构化数据存储的问答,我们今天要讨论的也主要是神经问答系统问答系统产生的动机大概意思就是我们现在有特别多的全文文本,早起搜索可能就是返回相关的文档(类似于你想知道现在某俱乐部的负责人是谁,它可能提供你该俱乐部的各种资料,然后你需要自己去这些相关资料中寻找答案),但是人们对于需要答案的需求就更加急迫了(之前的太麻烦,我要算个数...原创 2020-07-19 22:17:27 · 498 阅读 · 0 评论 -
《30天吃掉那只tensorflow2 》day2-图片数据建模流程范例
学习网站:https://lyhue1991.github.io/eat_tensorflow2_in_30_days/1-2,图片数据建模流程范例.htmlcifar2数据集为cifar10数据集的子集,只包括前两种类别airplane和automobile。训练集有airplane和automobile图片各5000张,测试集有airplane和automobile图片各1000张。cifar2任务的目标是训练一个模型来对飞机airplane和机动车automobile两种图片进行分类。原创 2020-07-16 23:00:09 · 321 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 9: Practical Tips for Final Projects
资源链接:https://www.bilibili.com/video/BV1r4411课程一开始介绍了一些作业情况,具体就不介绍了,不过推荐了很多比较好的nlp的数据的网址,这个建议大家保留下:https://machinelearningmastery.com/datasets-natural-languageprocessing/https://github.com/niderhoff/nlp-datasets等等...正课知识内容我没找到...对应的课件,截图均来自视频本原创 2020-07-16 20:51:11 · 435 阅读 · 0 评论 -
《30天吃掉那只tensorflow2 》day1-结构化数据建模流程范例
使用数据集:titanic数据集的目标是根据乘客信息预测他们在Titanic号撞击冰山沉没后能否生存30天吃掉那只tensorflow2学习资料地址:https://lyhue1991.github.io/eat_tensorflow2_in_30_days/1-1,结构化数据建模流程范例.htmlimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport tensorflow as tffrom t原创 2020-07-15 14:28:07 · 451 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 8: MachineTranslation seq2seq Attention
资源链接:https://www.bilibili.com/video/BV1r4411本节课主要介绍了机器翻译、seq2seq toseq2seq和注意力机制。正课内容机器翻译的任务机器翻译(MT)是将一个句子x从一种语言(源语言)转换为另一种语言(目标语言)的句子y的任务,如下图:早期的机器翻译始于1950s,主要是俄语->英语,起因是冷战,系统主要是基于规则的,使用双语词典来讲俄语单词映射为对应的英语部分中期:统计机器翻译/Statistical Mac...原创 2020-07-14 00:05:02 · 3329 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 7: Vanishing Gradients and Fancy RNNs
资源链接:https://www.bilibili.com/video/BV1r4411本节课其实并没有介绍NMT/机器翻译,而是主要讲述了RNN的梯度爆炸/消失、LSTM、GRU、双向RNN、多层RNN等内容正文梯度消失/爆炸根据链式法则,我们可以求出各个结点隐藏变量hi的梯度,可以发现,当这些梯度很小的时候,反向传播的越深入,梯度信号就会变得越来越小距离最后结点越远的/i值越小的,其梯度是大量的相乘,这样如果之前的梯度都是很多大于1的,则相乘后会非常大/梯度爆炸;如果之前的梯度原创 2020-07-12 00:40:32 · 598 阅读 · 1 评论 -
2019年CS224N课程笔记-Lecture 6: Language Models, RNN, GRU and LSTM
资源链接:https://www.bilibili.com/video/BV1r4411正文感觉本节课就讲了两个内容,语言模型和RNN模型。本章我也会发力多多补充,上节课实在太难受了,感觉听不懂,大部分都是各种查资料各种参考555,终于来了个有基础的了5555Language Modeling/语言模型语言建模的任务是预测下一个单词是什么,其实语言模型就是用来判断生产下一个词的概率的一个模型。如下图所示:学生打开了 。到底打开了什么呢?可能是课本,可能是书,可能是电脑...原创 2020-07-07 15:00:06 · 852 阅读 · 1 评论 -
2019年CS224N课程笔记-Lecture 5: Linguistic Structure: Dependency Parsing
资源链接:https://www.bilibili.com/video/BV1r4411补充内容说实话,之前接触过一点nlp,在第五课直接膝盖都跪了,感觉这一章听天书一样,然后发现这一部分知识是我没了解过的,所以看了各种博客和其他视频先去了解了一下~(以下内容算是了解内容的一些搬运和整理吧,资源链接如下:https://zhuanlan.zhihu.com/p/51186364、https://blog.csdn.net/wwx123521/article/details/89636003)句法原创 2020-07-06 22:01:23 · 1685 阅读 · 1 评论 -
2019年CS224N课程笔记-Lecture 4: Backpropagation and Computation Graphs
资源链接:https://www.bilibili.com/video/BV1r4411正课内容神经网络的梯度让我们再看他一下s对w的求导反向传播中梯度的计算(上图的大概意思就是,考虑单个权重Wij的导数,Wij只对zi有贡献,例如W23只对z2有贡献,而对z1没有贡献)对于单个Wij的导数来说,为:我们想要整个 W 的梯度,但是每种情况都是一样的:梯度求导需要注意的小心的定义变量而且要始终关注它们的维度 使用链式法则进行计算 要清楚哪些变量用于哪些计算 对原创 2020-07-03 00:27:28 · 512 阅读 · 0 评论 -
2019年CS224N课程笔记-Lecture 3: Word Window Classification, Neural Networks, and Matrix Calculus
资源链接:https://www.bilibili.com/video/BV1r4411正课内容分类的介绍和概念xi是输入,例如单词、句子、文档(索引或是向量),维度为dyi是我们尝试预测的标签( C个类别中的一个),例如:以一个简单样例为例:对于上图的训练过程如下:任务:固定的二维单词向量分类 (输入是单词向量(2维),输出是单词对应的类别标签,类似于y=ax1+bx2+c) 使用softmax/logistic回归进行分类 产生线性决策边界(绿色和红色的边界).原创 2020-07-02 18:53:37 · 665 阅读 · 1 评论 -
2019年CS224N课程笔记-Lecture 2: Word Vectors and Word Senses
资源链接:https://www.bilibili.com/video/BV1r4411f7td?p=1(中英文字母版)word2vec的复习其实没什么内容就是将上节课说的复习了一遍,不过最后又添加了一下新内容,如下:word2vec是根据语义进行训练的,相同语义的词在空间上是比较靠近的,而且能很好的表示类比关系,例如:国王-男人+女人=王后/皇后;相对于瓶子和盖子的关系,类比暖壶,可能输出壶塞。上节课也说了,word2vec的计算是很大的。一种方法是使用SGD/随机梯度下降方法,对于θ(超参数原创 2020-07-01 21:45:55 · 869 阅读 · 2 评论 -
2019年CS224N课程笔记-Lecture 1: Introduction and Word Vectors
资源链接:https://www.bilibili.com/video/BV1r4411f7td?p=1(中英文字母版,不过可能由于up主不了解专业术语,许多专业术语翻译的不是很好,不过也要感谢up的辛苦劳作了~)(2019的感觉相对于之前的少了许多类似前言介绍的内容,我在这里将总结一下之前版本的CS224N的本次课程没讲解的内容)补充的前沿知识:什么是自然语言处理(NLP)?NLP/Natural Language Processing= computer science + artif.原创 2020-07-01 18:10:26 · 1960 阅读 · 3 评论 -
神经网络构建中protobuf相关问题
我总结了下我出现的错误原因出现的问题1:AttributeError: 'google.protobuf.pyext._message.RepeatedScalarConta' object has no attribute 'XXX'原因:protobuf版本不对应import google.protobufprint(google.protobuf.__version__)使用如上代码可以查看自己的protobuf版本,然后去网上查找自己使用框架的对应版本,例如我使用的是tf2.原创 2020-06-19 10:07:59 · 613 阅读 · 0 评论 -
动手学深度学习(tensorflow)---学习笔记整理(十、计算机视觉篇)
有关公式、基本理论等大量内容摘自《动手学深度学习》(TF2.0版))原创 2020-06-18 21:52:48 · 906 阅读 · 0 评论 -
动手学深度学习(tensorflow)---学习笔记整理(九、优化算法篇)
有关公式、基本理论等大量内容摘自《动手学深度学习》(TF2.0版))优化与深度学习优化在深度学习中有很多挑战。下面描述了其中的两个挑战,即局部最小值和鞍点。局部最小值运行代码:import sysimport tensorflow as tfsys.path.append("..")from mpl_toolkits import mplot3d # 三维画图from mpl_toolkits.mplot3d import Axes3Dimport nump原创 2020-06-09 16:27:01 · 981 阅读 · 0 评论 -
动手学深度学习(tensorflow)---学习笔记整理(八、计算机性能篇)
有关公式、基本理论等大量内容摘自《动手学深度学习》(TF2.0版))命令式编程和符号式编程是什么?命令式编程,用直白的话就是:我们写的那种通常写的那种方式,使用编程语句改变程序状态,明确输入变量,并根据程序逻辑逐步运算。例如如下代码:import timeimport tensorflow as tf#命令式编程def add(a, b): return a + bdef fancy_func(a, b, c, d): e = add(a, b) f =原创 2020-06-07 17:27:57 · 489 阅读 · 2 评论 -
动手学深度学习(tensorflow)---学习笔记整理(七、卷积神经网络篇)
有关公式、基本理论等大量内容摘自《动手学深度学习》(TF2.0版))前面我们需要简洁实现都是用的Sequential来实现的,我们可能发现简洁实现很简单,但是内部细节可能很难控制。而自己从零开始实现又过于麻烦,而tf.keras.Model则可以实现上述的均衡。(具体内容就不详细介绍了)下面开始卷积神经网络的相关概念再说这个事情先说个事情,就是前面我们训练的图片向量输入时都展成一维向量了,这样其实是不对的,因为这种方法破坏了纵向之间的数据关系。可以通过如下程序进行验证:impo原创 2020-06-05 13:07:43 · 574 阅读 · 0 评论 -
动手学深度学习(tensorflow)---学习笔记整理(六、传播相关问题+实战篇)
有关公式、基本理论等大量内容摘自《动手学深度学习》(TF2.0版))正向传播通过刚刚的学习,我们会发现数据从输入层到输出层之间,会对各层的矩阵做矩阵乘法,然后加上偏置项,然后可能还需要加上激活函数,可能还需要L2范式正则化,然后继续输入到下一层,循环往复。下面看一下材料的说法反向传播反向传播其实就是计算出损失函数,求出梯度后,从输出层向输入层反向的更新各层的参数矩阵和偏置项。看一下正规的说法正向传播和反向传播的关系数据稳定性主要有两个问题:衰减和爆炸原创 2020-06-02 23:28:37 · 644 阅读 · 0 评论 -
动手学深度学习(tensorflow)---学习笔记整理(五、过拟合和欠拟合相关问题篇)
什么是过拟合和欠拟合?在我们训练模型过程中经常会遇见两个问题:我们的模型训练过程中准确率很高,但是实际应用或者使用验证集的时候效果比较差;我们模型训练过程准确率比较低,一直无法得到高的准确率。我们通常把前者称为过拟合,后者称为欠拟合。通俗的说就是:以考研为例,我们希望考生模拟题做的好,考场上也能发挥出对应水平来。过拟合就是一个人天天做考研模拟试卷(训练集),这些试卷基本上都是满分(准确率很高),但是真正上考场了考的分数很低(实际应用/验证集效果很差)。欠拟合就更容易理解了,模拟卷都一直做不对原创 2020-06-02 20:15:15 · 644 阅读 · 0 评论 -
动手学深度学习(tensorflow)---学习笔记整理(四、多层感知机篇)
(有关公式、基本理论等大量内容摘自《动手学深度学习》(TF2.0版))多层感知机是什么?个人的理解就是:多层的神经网络+非线形的。具体说说就是至少包含一层隐含层和输出层构成多层,非线性这个概念可以通过下面的内容来学习,由激活函数实现的线性到非线形的映射。隐藏层、多层神经网络的相关知识通过最后一段话可以发现,对于线性的神经网络,不论是多少层都等价于单层神经网络,所以对于线性的模型,多少层都没有意义,当每层转化为非线形后,上述等价式即无法成立,可以得出,多层感知机所表示的模型(多层+非线原创 2020-05-31 22:52:25 · 535 阅读 · 0 评论 -
动手学深度学习(tensorflow)---学习笔记整理(三、softmax回归篇)
(有关公式、基本理论等大量内容摘自《动手学深度学习》(TF2.0版))什么是softmax回归?前面学的线性回归最后结果为预测的连续值,而softmax回归更适合预测离散值。这句话可能不太理解。先说一下softmax的定义:它把一些输入映射为0-1之间的实数,并且归一化保证和为1,因此多分类的概率之和也刚好为1。这些映射的实数的个数是认为设定的。例如我们要识别数字图片,则0-9的概率是我们想要知道的,使用softmax可以预测取0-9的概率,选择0-9之间概率最大的数字作为结果。加一个官方的原创 2020-05-31 00:08:35 · 975 阅读 · 0 评论 -
动手学深度学习(tensorflow)---学习笔记整理(二、线性回归篇)
(有关公式、基本理论等内容摘自《动手学深度学习》(TF2.0版))首先说一下线性回归是什么?个人理解:线性回归利用某种方法来确定两种或两种以上变量间相互依赖的定量关系的一种分析方法。简单点说,现在有一些随机点,通过某种方法找出来他所符合的线性方程。用途嘛~例如,我们有房价和决定因素的相关数据,可以找到它符合的线性函数,然后对房价进行预测~线性回归的基本要素简单点说就是自变量们和因变量。用一个例子来说,以一个房屋价格预测为例,这个应用的目标是预测一栋房子的售出价格(元)。我们知道这个价格取决于原创 2020-05-29 21:30:18 · 836 阅读 · 1 评论 -
动手学深度学习(tensorflow)---学习笔记整理(一、预备知识篇)
学习视频来源为b站动手学深度学习系列视频:https://space.bilibili.com/209599371/channel/detail?cid=23541由于上述视频为MXNet/Gluon框架编写,所以代码部分参考网站为:https://trickygo.github.io/Dive-into-DL-TensorFlow2.0/#/本文主要是学习该系列视频所整理笔记,可能很多内容直接原文整理,如有需要可以去上述两个网站进行学习。深度学习是什么?这个问题不同人有不同的理解,我粗浅的原创 2020-05-25 21:32:10 · 948 阅读 · 0 评论 -
Word2vec浅显的理解
本文主要让你理解Word2vec大概是个什么事情~没有具体原理等~先来说一下Word2vec的产生,其实也和one-hot编码有关系,大家相信100维的向量最多可以表示多少个词?one-hot说,我能表示100个~但是你如果表示所有的单词需要多少维啊...one-hot就数不过来了,太多了(10的五次方级的维度),然后人们就想用一直分布式的方法来表示词,如果100维的向量每个维度都可以取任...原创 2020-03-18 15:20:35 · 4459 阅读 · 0 评论 -
NLP学习-文本特征向量化
首先说一下文本分析流程:现在已经到了流程图的第五块内容了~下面讲述文本特征向量化的相关内容。前面四个模块的完成,意味着我们已经有了以词为单元的数据了,但是有个问题...计算机能直接用这些词来训练吗?答案是不能的,例如如果之前接触过神经网络等概念的,或者自己拿别人模型跑着玩的时候就会发现,训练机是数字数据的时候可以直接用,如果图片、音频等其实也都是转化成数字数据的格式来进行训练的,那...原创 2020-03-16 14:47:27 · 2276 阅读 · 0 评论 -
NLP学习-词形标准化
首先说一下文本分析流程:下面讲述词形标准化的相关内容。在清洗过程中,我们说到了一个处理,就是同音近音近型替换也就是词形规范化,这里就讲述两种实现的方法,如下词干提取(Stemming):基于语言的规则,抽取词的词干或词根形式(不一定能够表达完整语义),方法较为简单。词性还原(Lemmatisation):基于字典的映射,把一个词汇还原为一般形式(能表达完整语义),方法较为复杂...原创 2020-03-13 11:38:45 · 1695 阅读 · 0 评论 -
NLP学习-清洗
首先说一下文本分析流程:关于分词可以看一下:https://blog.csdn.net/RHJlife/article/details/104748790本文将介绍文本分析过程中的文本清洗相关内容。先说一个关于数据清洗的内容:数据重复处理数据错误处理 数据缺失处理 数据异常处理对于我们使用的数据(包括文本、图像、数字信息等)以上操作是必不可少的,但是在文本清洗过程中还...原创 2020-03-13 10:39:15 · 1479 阅读 · 0 评论 -
最大熵模型
首先了解一下什么是熵(Entropy) ~“熵”最初是热力学中的一个概念,上世纪40年代,香农首先在信息论中引入了信息熵的概念。信息熵用来表示不确定度的度量,不确定度越大,熵值越大。极限情况,当一个随机变量均匀分布时,熵值最大;完全确定时,熵值为0。简单来说,熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,熵越小,...原创 2020-03-13 00:11:23 · 361 阅读 · 0 评论 -
BP神经网络详解+原理
本文将会从实际的训练过程来依次讲解,用到哪些知识点就将~BP神经网络是一种按误差反向传播(简称误差反传)训练的多层前馈网络,其算法称为BP算法,它的基本思想是梯度下降法,利用梯度搜索技术,以期使网络的实际输出值和期望输出值的误差均方差为最小。基本BP算法包括信号的前向传播和误差的反向传播两个过程。即计算误差输出时按从输入到输出的方向进行,而调整权值和阈值则从输出到输入的方向进行。正向传播...原创 2020-03-10 12:41:26 · 59276 阅读 · 4 评论 -
NLP学习-分词
首先说一下文本分析流程:本文将介绍中文与英文分词的不同、常见的中文分词手段等首先说一下中文与英文文本的特点,通过这些特点你应该能直观的发现他们直接分词的不同了中文:中文没有单词的分割符号,因此需要复杂的分词模型进行分析。(这也是我们重点要讲的) 中文的编码不是utf8,而是unicode。这样会导致在分词的时候,和英文相比,我们要处理编码的问题。 中文纠错的处理比英文更难。...原创 2020-03-09 13:39:09 · 2242 阅读 · 0 评论