自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

翻译 开放领域的问答系统

2.1基于规则的开放问答系统基于规则的开放问答系统背后几乎没有经过严格证明的定理与数学公式,也没有复杂的算法,大多采用模版匹配的方式来寻找最合适的答案。它们的相似点在于对话过程中其回答均基于谈话技巧,而不是根据常识回答。其回答算法依赖于包含大量句型、模板的对话语料库,但其中不包含常识性知识。在面对知道答案的问题时,聊天机器人经常能准确给出合适的回答;而对于那些不知道答案的问题,目前基本有三种常用的...

2018-05-22 14:14:54 3315

翻译 面向具体任务的检索式问答

面向具体任务的检索式问答对于面向具体任务的问答系统,目前市面上的系统维护成本较高,大部分由手写规则构成,扩展能力较差,少部分较为先进的系统采用了检索式方案,其本质是对用户问题进行分类再针对性回答,因此其核心算法是基于问句语义相似度的计算,这些方法大多使用数据驱动的方式代替传统的特征工程与手写模板。对于面向具体任务的问答系统,其设计的核心目标是专注做好一件事情,因此需要保证答句语法正确、内容准确。大...

2018-05-22 14:14:01 1855

原创 中文分词

        在中文自然语言中,词是组成句、段章的基本语言单元。由于汉语词语之间没有明显的区分标记,因此,在进行中文自然语言处理前,通常是先将汉语文本中的字符串切分成合理的词语序列,并在此基础上进行其他分析处理。中文的词法分析在很多情况下表现为中文分词,她也是自然语言处理中的一项基础性的工作。分词能将每段文本分成独立的词汇单元,词性标准能标引出每个词的此次那个。        中文分词就是将中文...

2018-05-22 14:12:21 204

原创 大数据

        对于普通的大数据实践者而言,利用较为成熟的大数据基础框架Hadoop、计算引擎Spark,以及诸如Weka3这样的机器学习软件,能够在一定程度上解决数据存储、计算与挖掘问题。        然而,对于大量的大数据探索者与实践者而言,还会遇到形形色色的问题。例如,如何合理地可视化大数据,如何实现大数据的隐私保护,如何通过信息检索技术快速在大数据中找到合适的信息等。由于大数据涉及存储、...

2018-05-22 14:10:54 141

原创 面向具体任务检索式问答-端对端开放领域问答系统

1,基于检索的问答系统-面向具体任务检索式问答:可以被化归为一种复杂的信息检索系统,可以自动将用户的自然语言问句转化为查询请求并从一系列候选文档。检索式问答系统的核心性能与其依赖的IR系统紧密相关。而IR系统的性能取决于其文档索引与查询请求的设计,由于自然语言天生具有句式复杂、表达多样的特性,大部分问答系统的IR模块都会采用问句重写[8](Query Expansion)与语义模板[9](Sema...

2018-05-22 14:09:57 2375

原创 知识图谱-问答

知识库-知识图谱:二、知识图谱的作用:知识图谱的重要应用之一就是作为自动问答系统的知识库。知识图谱的出现真正将搜索引擎从字符串匹配层面推进到了实体表示层面,新一代搜索引擎更加深入理解用户背后的搜索意图,也越来越得到人们的青睐。由于“知识图谱”字面表义形象,现在往往被用来泛指各种大规模的知识库。三、什么是知识图谱:知识图谱本质上是①人类己知全部事实的任意子集合体,通常表示为巨型的复杂语义网络。②该网...

2018-05-22 14:08:35 643

翻译 问答基础知识

传统搜索引擎的缺点: 1,相关信息太多,目前传统的搜索引擎返回了太多相关网页,用户不容易快速定位到真正想要的信息上。 2,用户常常只能以关键词的逻辑组合来表达检索需求,目前的搜索引擎很难直接识别用户使用自然语言表达的查询问句的意图。 3,从检索角度来说,目前大部分搜索引擎的索引都是以关键词为基础,这样的索引构建、关键词匹配算法较为简单,但这样的     索引 方案仅考虑到了词语级别的程度,忽略了深...

2018-05-22 14:07:23 260

翻译 社区问答—数据源介绍

Web 2.0技术的飞速发展带来了互联网中的用户生成内容(User-generatedContents, UGC)的规模的不断增长。作为一种新的网络信息资源,高质量的用户生成内容的研究和应用价值正逐渐显现。由问题和其答案组成的问答对是用户生成内容的典型代表,是用户之间以互联网为媒介的知识分享行为的直接产物。1,用户生成内容(问答对)的特点:用户生成的问答对组成的问答资源:①网络文本为载体的体现形式...

2018-05-22 14:05:53 1363

原创 文本中空格处理

在爬虫过程中会遇到汉字中间有空格(/n/r/xaQ)的情况,至此我们需要对数据进行清洗:

2018-05-22 13:59:06 763

原创 ubantu14.04安装sublime、配置sublime中文输入和插件!

1,安装sublime参考:https://jingyan.baidu.com/article/64d05a023cd849de55f73be4.html2.配置中文输入(ubantu下sublime自身带bug),但大神已经给了方案,参考:https://jingyan.baidu.com/article/f3ad7d0ff8731609c3345b3b.html3,安装插件参考:https:/...

2018-05-22 13:54:29 241

原创 线程、线程返回值接收、线程锁

##如有错误,欢迎大家指正!cpu:准许一个线程在其上工作内存:多个线程可以共享内存数据,如果涉及到使用相同的数据加个锁会保证数据的准确性。爬虫:因为数据是不共享的,所以加不加锁无所谓,实践证明在不加线程锁的时候速度会更快。cpu:对于cpu密集型任务,应该考虑用多进程,multiprocessing。实践:1.引入模块与包:2,线程3.接收线程返回值的类:4,线程锁:...

2018-04-03 11:51:44 192

转载 简单线程

知识累积,初次使用,收集一些简单好懂得知识。1,使用线程的好处1.1没有使用进程输出的结果(串行执行):1.2使用线程输出结果(并行执行,以最长的那个线程时间为准):2.传递参数的进程:...

2018-03-28 12:16:58 105

原创 上万待爬虫的网页,速度慢怎么办——线程与进程!

爬虫基础:爬虫包括请求、提取和保存三个部分,这时候的这个爬虫有了能爬能存的能力。弱势:①爬虫本身健壮性并不高,有很多情况不一定考虑到;②爬虫爬的很慢,效率很低;③防反爬能力不强,容易被Ban掉针对:②爬虫爬的很慢,效率很低;解决策略——多进程and多线程强补:        进程(Process)是程序关于某数据集合上的一次运行活动,是系统资源分配和调度的基本单位,操作系统结构的基础。在当代面向线...

2018-03-28 12:15:50 4374

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除