![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
项目整理
William张
计算机研究生,自然语言处理方向,专注于语音。
展开
-
个人课题:言语评估
emotion: 情感,情绪,主观的。label一般是:happy、sad、angrysentiment: 态度,情绪,意见。positive、negative,nature课题数据集处理:数据情况:训练集+验证集:2783;测试集(相同题目):299,测试集(不同题目):344。初步, 类标先不平衡, 直接去学,看整体打分预测效果怎样。类标选择二人取平均、最终生成:train,...原创 2019-04-03 15:38:25 · 291 阅读 · 0 评论 -
项目总结:蓝凌
核心,1)对数据建立索引(用于精确匹配);2. WMD(无监督的模型,相似度计算,排序,对于无法精确匹配的,设置阈值)普通问答(问答类型的):返回相似度最高的匹配问句(后面可以接应用场景,返回库里对应的答案, 比如:特定领域的特定知识库)指令(执行某种操作,命令型的):应用场景,语音助手等,1. 分类模型:识别指令类型,2.解析模型:对指令进行解析,提取出机构名(地名)、人名、时间,做什么。...原创 2019-03-28 18:02:49 · 769 阅读 · 0 评论 -
项目总结-网络文本识别
数据:给定数据集:10000条数据作为训练集。涵盖几十种字体,像素大小也各不相同,排版方式复杂,语言也很多种。原始图片,+ 文本框四个点坐标(里面是标注的文字)最小外接矩形,确定要扣取的文本区域,图片小于45度,转为水平;图片大于45度,转为垂直,最后将垂直的转为水平(倾斜处理)2. 对文字图片进行角度处理,然后归一化成 同一尺寸。图片的宽高统计,选取高度,宽度,为啥???宽高比统计,...原创 2019-03-28 17:56:49 · 301 阅读 · 0 评论 -
项目总结-问句匹配
匹配模型相关意图: intention语义: semanticSemantic textual similarity 语义文本相似度Reformulation: 问题重述,换个表达方法。分词: Chinese Word Segmentation(WS)词性标注: part of speech(POS)命名实体识别: NERFAQ set: 问答语料库 -> 建立索引。(留...原创 2019-03-27 23:49:20 · 1378 阅读 · 0 评论 -
课题实验过程
4.9号初步跑起来,sigmoid_cross_entropy_logits.只有联合优化。发现的问题,1)batch划分不均匀,训练过程,不稳定,忽高忽低;2)代码整理下,最好6个loss一起优化;(有可能只能优化一个联合loss)3)可以图显示。4)不用准确率来衡量。改为softmax 交叉熵。...原创 2019-04-09 17:50:40 · 312 阅读 · 0 评论 -
多模态言语评估-(工作准备)
机器学习方法特征工程流畅度: 从静默、停顿字眼、持续时间,频率几个方面来提特征。 如: 静默次数、平均静默持续时间、静默时间超过0.5s的频率,停顿字眼出现的次数(参考口语顺滑方向)(嗯,啊,额,mmm等语气词,重叠词,重复说的,),子句在整个过程中,静默以及不流畅的频率。最终提取了7维的特征,标准化(均值方差归一)(比简单大数小数归一化靠谱)。语调: 韵律特征如:基频、过零率、音高(主观,...原创 2019-07-01 19:12:26 · 1017 阅读 · 1 评论