- 博客(96)
- 资源 (30)
- 收藏
- 关注
原创 二十四、TextCNN的原理和实现
Yoon Kim在2014年将卷积神经网络CNN应用到文本分类任务,利用多个不同大小的卷积核来提取句子中的关键信息,从而能够更好地捕捉局部相关性
2022-03-25 10:33:28 1999
原创 二十三、卷积神经网络概述
卷积神经网络(Convolutional Neural Network,CNN)针对全连接网络的局限做出了修正,加入了卷积层(Convolution层)和池化层(Pooling层)
2022-03-25 10:31:52 745
原创 十九、Pytorch中的数据加载
1. Pytorch中DataSet的使用方法1.1 DataSet加载数据的方法DataSet是Pytorch中用来表示数据集的一个抽象类,在torch中提供了数据集的基类torch.utils.data.Dataset,继承这个基类,我们能够快速地实现对数据的加载**.**__len__:返回数据集大小; __getitem__:可以通过下标方式获取数据1.2 DataSet类的源码1.3 DataLoader使用方法定义dataset实例设置读取数据batch的大小,常用12
2022-01-17 16:46:24 536
原创 十五、中文词向量训练二
中文词向量训练二:Gensim工具训练中文词向量wiki.zh.text.seg为输入文件,wiki.zh.text.model和wiki.zh.text.vector为输出文件,model存储了训
2021-12-06 12:31:48 719
原创 十三、布式词向量模型
分布式词向量模型1.连续词袋模型1.1 连续词袋模型的概念CBOW模型全称为Continuous Bag-of-Words。CBOW是利用上下文信息来预测中心词。给定一个句子:“Pineapples are spiked and yellow”。中心词:“spiked”;上下文:“Pineapples, are, and, yellow”。中心词所限定的语义就被传递到上下文的词向量中,其他带刺植物的向量表示就会靠近Pineapples。1.2 连续词袋模模型的原理和计算过程输入层
2021-12-02 14:38:50 307
原创 十二、神经网络语言模型
神经网络语言模型1.NNLM的原理1.1 语言模型假设S表示某个有意义的句子,由一串特定顺序排列的词w1,w2,..,wnw_1,w_2,..,w_nw1,w2,..,wn组成,n是句子的长度。目的:计算S在文本中(语料库)出现的可能性P(S)。1.2 神经网络语言模型直接从语言模型出发,将模型最优化过程转化为求词向量表示的过程.2. NNLM的网络结构2.1 NNLM的结构图NNLM网络结构包括输入层、投影层,隐藏层和输出层2.2 NNLM的计算过程根据前面的
2021-11-29 17:03:23 2024
原创 十一、词向量模型
1.独热编码1.1 独热编码的概念在英文中称作One-Hot code,直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。假如有三种颜色特征:红、黄、蓝。红=1,黄=2,蓝=3;红<黄<蓝;即红色:1 0 0 ,黄色: 0 1 0,蓝色:0 0 11.2 独热编码表示词向量John likes to watch movies. Mary likes too.John also likes to watch football games.1
2021-10-13 16:52:51 706
原创 十、词向量基础
1.计算机中如何表示一个词语和frog最接近的前7个单词有哪些1.1 向量空间分布的相似性计算机中表示的词语需要满足向量空间分布的相似性,向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用.1.3 向量空间分布子结构计算机中表示的词语同样需要满足向量空间子结构,学习的词向量模型最终目标是将词向量作为机器学习,特别是深度学习的输入和表示空间。2. 词向量的概念及问题2.1 词向量的概念在自然语言处理的任务中,词向量(
2021-09-13 09:42:28 360
原创 九、N-gram语言模型
1.语言模型语言模型的作用是根据文本输入 ,计算文本内容是句子的概率。2 N-gram模型介绍2.1 语言模型概念如果我们有一个由m 个词组成的序列(或者说一个句子),我们希望计算句子的概率。根据链式规则,可得根据马尔可夫假设可得:2.2 N-gram模型简介N-gram模型是一种语言模型(Language Model,LM),语言模型是一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率,即这些单词的联合概率(joint probability)。
2021-09-08 10:15:14 4839
原创 八、朴素贝叶斯中文分类实战
1.朴素贝叶斯中文分类实战文本分类的流程如下图所示:朴素贝叶斯中文分类的目录结构中文分类的目录机构包括停用词文件、训练集文件和和测试集文件,具体内容如下图所示:2 数据准备与处理2.1 数据集介绍案例中使用的数据是一些新闻数据,每条数据包含了新闻类型和新闻标题。类型有以下四种:财经类、娱乐类、健康类和体育类。2.3 加载数据load_data函数的功能是读取训练数据和测试数据:titles_list和labels_list中分别存放文本标题和对应的标签信息。# 加载数据
2021-09-07 15:30:47 617 1
原创 七、朴素贝叶斯中文文本分类
1.朴素贝叶斯中文文本分类中文分词停用词朴素贝叶斯中文分类举例:新闻文档分类朴素贝叶斯中文分类的具体过程:加载停用词、中文分词、文本向量化、模型训练和保存、模型的加载和预测。2 中文分词2.1 中文的分词的作用在中文自然语言处理中,词是最小的能够独立活动的有意义的语言成分。汉语是以字为基本书写单位,词语之间没有明显的区分标记,因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列,然后再在此基础上进行其它分析处理。2.2 对文档分词常用的分词工具包括:jieb
2021-09-06 11:22:39 496
原创 六、朴素贝叶斯案例分析
1.朴素贝叶斯案例分析朴素贝叶斯案例分析的内容有:项目概述:屏蔽社区留言板的侮辱性言论项目实战:朴素贝叶斯案例的实现数据集信息朴素贝叶斯案例的数据包含6条样本,具体有3个正样本和3个负样本,标签0表示样本为正样本,标签为1表示样本为带有侮辱性的词汇。2 项目概述2.1 屏蔽社区留言板的侮辱性言论以在线社区的留言板为例。为了不影响社区的发展,要屏蔽侮辱性的言论。对此问题建立两个类别:侮辱类和非侮辱类,使用1和0分别标识.3 项目实战3.1 屏蔽社区留言板的侮辱性言论的具体
2021-09-02 10:05:43 1157
原创 五、朴素贝叶斯分类算法
1.朴素贝叶斯分类算法的基本内容:概率基础朴素贝叶斯分类器朴素贝叶斯的核心思想是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。2 概率基础2.1 随机变量的先验、条件、联合概率先验概率:事件发生前的预判概率。P(X)条件概率:一个事件发生后另一个事件发生的概率。P(X1lX2), P(X2lX1)联合概率:是指两个事件同时发生的概率。X=(X1,X2), P(X)= P(X1,X2)相关:P(X1,X2)= P(X2lX
2021-09-01 09:41:10 297
原创 四、自然语言处理的主要挑战
1.自然语言处理的主要挑战1.1 自然语言处理的主要挑战包括基本问题主要困难NLP的研究内容有5大难点:没有规律、自由组合、开放集合、知识依赖和上下文信息。2 NLP的基本问题2.1 基本问题之一:形态学习问题研究词有意义的基本单位——词素的构成问题单词的识别/汉语的分词问题词素:词根、前缀、后缀、词尾例如:人,老虎=老+虎,图书馆=图+书+馆2.2基本问题之二:句法问题研究句子结构成分之间的相关关系和组成句子序列的规则为什么一句话可以这么说也可以那么说?如何建立快速
2021-08-23 11:25:19 3887 1
原创 三、自然语言处理研究内容
1 自然语言处理的研究内容机器翻译和问答系统自动文摘和文档分类文字编辑和自动校对语音识别和语音合成2 机器翻译和问答系统2.1 机器翻译机器翻译(Machine Translation,MT):实现一种语言到另一种语言到自动翻译。应用:文献翻译、网页辅助浏览器等.代表系统:Google、百度、有道翻译等.机器翻译的前景非常广阔,包括文化、商贸、旅游等。2.2 问答系统通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动搜索答案并作出相应的回答。
2021-08-19 16:49:45 1802
原创 二、自然语言处理发展历程
1.自然语言处理发展历程自然语言处理的发展历程经历了兴起阶段、符号主义、连接主义和深度学习阶段。兴起阶段:自然语言处理的萌芽期,代表人物包括图灵和香农。符号主义:自然语言处理的发展器,代表任务是乔姆斯基和他的生成文法。连接主义:自然语言处理的发展器,代表方法为统计机器学习。深度学习:自然语言处理的鼎盛期,代表人物为深度学习三巨头:Yoshua Bengio、Yann LeCun、Geoffrey Hinton。2 兴起阶段2.1 致命密码:一场关于语言的较量**苏格兰女王玛丽能使用了
2021-08-19 16:32:32 3937
原创 一、自然语言处理概述
1.自然语言处理概述1.1 文本大数据的机遇和挑战语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具.人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上.中国互联网上有87.8%的网页内容是文本表示的.1.2 全世界网页数量正以指数速率增长中文网页检索的最高准确率不足40%。1.3 跨语言通讯和信息获取技术具有重要的用途随着社会全球化时代的到来,机器翻译市场潜力巨大;涉及的领域包括文化、商贸、旅游、体育等1.4 总结自然语言处理要解决的问
2021-05-31 16:29:16 1225
原创 四十四、ETL工具的查询_连接和映射
1. ETL工具Kettle的查询、连接和映射在ETL工具中,查询、连接和映射各自的作用包括:查询步骤:用来查询数据源中的数据并合并到主数据流中连接步骤:将结果集合通过关键字进行连接子转换/映射:在转换里调用一个子转换,便于封装和重用2. 查询步骤在Kettle工具中,查询步骤常见的方式包括:流查询、模糊匹配、数据库查询、Web查询等等。流查询只支持“==”的查询如果匹配上多条,只保留最后一条如果没有匹配上,只保留字段值为NULL模糊匹配只支持单列的查询匹配相似度最大
2021-02-25 14:57:41 924
原创 四十三、ETL工具的流程和应用
1. Kettle的流程步骤和应用步骤Kettle应用步骤的作用:用来转换提供的一些工具类步骤。具体的内容包括:NULL值处理如何启动其他程序日志功能文件处理功能2. 如何过滤数据在Kettle工具中,可以通过Switch/case、过滤记录和更具Java表达式完成数据的过滤。各自的特点包括:Switch/case按钮多路开关、可以实现一路到多路支持日期、数值、字符串类型比较过滤记录按钮多路开关、支持一路到两路支持日期、数值、字符串比较,自定义嵌套的表达式等根据
2021-02-24 09:38:11 791
原创 四十二、ETL工具Kettle的转换步骤
1. ETL工具Kettle的转换步骤1.1 Kettle转换步骤的具体内容:字符串处理字符串的拆分字符串的替换行列变换其他转换步骤闭合距离XSL转换数值范围2 字符串的处理2.1 字符串的拆分按位置拆分字符串,完成对字符串的剪辑按标志字符一列拆分成多列或多行字符串的合并:多列合并为一列多行合并为一行2.2 字符串的替换值映射使用正则表达式2.3 字符串的其他转换使用常量替换一个字段的值。使用一个字段替换另一个字段的值。字符串
2021-02-23 10:37:54 669
原创 四十一、ETL工具kettle输出步骤
1. ETL工具Kettle的输出步骤Kettle输入步骤主要分为以下几类:数据库输出表输出更新、删除、插入和更新文件输出文本文件输出XML输出Excel文件输出其他报表和应用2 数据库输出2.1 表输出的功能使用SQL的方式向数据库提交数据特点:表输出支持批量提交数据,可以对数据进行分区,具有字段映射和返回自增列的弄能。2.2 表输出各自功能的特点更新:根据关键字匹配规则,更新数据库中已有的数据删除:根据关键字匹配规则,删除数据库已有的数据
2021-02-22 10:30:38 524
原创 四十、ETL工具的输入步骤
数据挖掘_unit401. ETL工具Kettle的输入步骤1.1 Kettle输入步骤主要分为以下几类:生成记录和自定义常量。获取系统信息输入方式2 生成记录和自定义常量2.1 Kettle组件生成记录生成记录的每行数据都是相同的,所以便诞生了自定义常量数据来手工模拟数据。2.2 Kettle组件自定义常量用于生成自定义的数据一般用于测试数据的构建3 获取系统信息获得各类系统信息,常见的包括:转换开始时间关键时间点信息最多十个命令行参数主机名/ip/
2021-02-20 10:49:29 531
原创 自然语言处理之长短时记忆网络(六)
1. 情感倾向性分析长短时记忆网络的基本概念长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。LSTM网络结构LSTM的门控机制LSTM的变种2 LSTM网络结构2.1 LSTM网络结构及其特点基于RNN结构设计,从左到有依次阅读整个句子,并不断更新记忆。LSTM在不同cell之间传递的是2个记忆信息,而不像循环神经
2020-12-05 13:42:34 651
原创 自然语言处理之循环神经网络(五)
1. 时序模型1.1 时序模型的特点针对对象:序列数据。例如文本,是字母和词汇的序列;语音,是音节的序列;视频,是图像的序列;气象观测数据,股票交易数据等等,也都是序列数据。核心思想:样本间存在顺序关系,每个样本和它之前的样本存在关联。通过神经网络在时序上的展开,我们能够找到样本之间的序列相关性。1.2 时序模型的网络结构**时序模型的结构如图所示2 RNN概述2.1 RNN的发展历程早期:在20世纪八九十年代,RNN的核心思想是重新使用参数和计算。中期:除了LSTM外,RNN
2020-12-04 10:01:22 575
原创 自然语言处理之神经网络基础(四)
1.1神经网络的基本概念神经网络(neural network,NN),是一种模仿生物神经网络的结构和功能的数学模型或计算模型。神经网络由大量的人工神经元联结进行计算。前馈神经网络基础卷积神经网络卷积神经网络的文本分类3 前馈神经网络基础3.1 神经元一个神经元通常具有多个树突,主要用来接受传入信息;而轴突只有一条,轴突尾端有许多轴突末梢可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接,从而传递信号。这个连接的位置在生物学上叫做“突触”。3.2 前馈神经网络结构
2020-12-03 11:13:19 606
原创 自然语言处理之词向量模型(三)
1. 词向量模型1.1 实现词向量的挑战挑战一:如何把词转换为向量?自然语言单词是离散信号,比如“香蕉”、“橘子”、“水果”在我们看来就是3个离散的词。我们应该如何把离散的单词转换为一个向量。挑战二:如何相向量具有语义信息?我们知道,“香蕉”和“橘子”更加相似,而“香蕉”和“句子”就没有那么相似,同时,“香蕉”和“食物”,“水果”的相似程度,可能介于“橘子”和“句子”之间。那么,我们该如何让词向量具备这样的语义信息?词向量常见模型神经网络语言模型(NNLM)连续词袋模型(CBOW)Ski
2020-12-02 10:16:09 458
原创 自然语言处理之词向量技术(二)
1. 词向量技术词向量(word2vec)是一种表示自然语言中单词的方法,即把每个词都表示为一个N维空间内的点,即一个高维空间内的向量,通过这种方法,把自然语言计算转换为向量计算。词向量的基本内容包括:问题引入基于统计方法的词向量基于语言模型的词向量2 问题引入2.1 向量空间分布的相似性在计算机中表示词语时,当词语转换为向量之后,应保持词语之间在空间中具有相似性。2.2 向量空间子结构和目标词语的向量不仅能表示空间分布,还应保证空间子结构一直。词向量的最终目标是:词向量的表
2020-12-01 09:59:40 1324
原创 自然语言处理综述(一)
1. 自然语言处理的基本内容语言是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具。人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上,中国互联网上有87.8%的网页内容是文本表示的。问题的提出自然语言处理的基本概念自然语言处理的发展史2 问题的提出2.1 自然语言处理的作用全世界网页数量正以指数速率增长,中文网页检索的最高准确率不足40%。随着社会全球化时代的到来,机器翻译市场潜力巨大,文化、商贸、旅游和体育等各个行业都需要使用自然语言处理的技术
2020-11-30 09:52:10 1097
原创 人工智能之语音识别技术(四)
1. 语音信号基础1.1 语音信号处理的目的语音信号处理是一门新兴的边缘科学,它是语音学与数字信号处理两个学科相结合的产物。它和认知科学、心理学、语音学、计算机科学、模式识别和人工智能等学科有着紧密的联系。语音信号处理的目的是要得到某些语音特征参数以便高效地传输或存储;或者是通过某种处理运算以达到某种用途的要求,例如人工合成语音、辨识出讲话者、识别出讲话的内容等1.2 语音信号处理的基本内容**语音信号的产生语音的感知语音信号处理发展史2 语音信号的产生2.1 语音信号产生的过程
2020-10-26 15:23:53 3388
多个对话框的组合(MFC类库)
2009-10-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人