自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

明日世界

希望、乐观和未来的无穷潜力

原创 #比尔·盖茨对2018感到意外的9件事#之【跟青少年学习愤怒管理】

Table of Contents冲突发生前--《拆除你的情绪地雷》改变观念态度改变行为冲突中--《控制愤怒》五个误区两个核心概念具体方法冲突发生后--《解决冲突的关键技巧》有效倾听高效沟通微软创始人比尔盖茨夫妇在其年度公开信《意料之外》里,分享了他们夫妇二人眼里,2018年最令人惊讶的9件事。以下是跟青少年学习愤怒管理部分的摘录:为了更好地了解贫困...

2019-02-28 00:29:48 111

转载 斯蒂芬•盖斯 — 《微习惯》

Table of Contents推荐语什么是微习惯为什么微习惯会起作用如何应用微习惯八个步骤三个关键点推荐语这本书介绍了培养习惯的一种新方法,它可以让坚持变得如此简单。培养习惯的两大阻力:没勇气行动和坚持不下去。微习惯的具体做法是把每次目标缩小到不能再少为止,比如把每天做100个俯卧撑缩减成每天做1个,把每天写3000字缩减成每天写30个字,这样需要的意志力就变得...

2019-02-17 15:37:52 604

转载 文本表示简介

Table of Contents基于向量空间模型的方法基于主题模型的方法基于神经网络的方法基于词向量合成的模型基于RNN/CNN的模型基于注意力机制的模型文本分类是自然语言处理中研究最为广泛的任务之一,通过构建模型实现对文本内容进行自动分类,有很多应用场景,比如新闻文章主题分类,产品评论情感分类,检索中用户查询的意图分类等等。文本分类的大致流程:文本预处理,抽取文本特...

2018-10-08 22:42:50 2636

转载 车品觉-《决战大数据》

Table of Contents大数据“从说到用”用户意识阿里实战经验“混、通、晒”“存、管、用”大数据在未来的应用趋势信息数据化决策实时化人类智能化总结大数据的应用阶段已经从发现问题、分析问题过渡到帮助企业挖掘更大的商业机会、辅助高层决策了。于此同时,很多企业的数据应用依然停留在表面,不仅错过了大数据蕴藏的巨大商业机会,也没有用数据给企业带来实打实的...

2018-10-07 12:25:01 557

转载 凯文・凯利-《失控》

Table of Contents借鉴意义第四次认知唤醒一个大斜坡进化体七条建议总结《失控》这本书,是未来学家凯文·凯利的成名作,也是他出的第一本书。《失控》写于1994年,在这本书里,他主要对人类的未来进行了一个猜想,同时对于网络、连接、人工智能和生命这些大话题进行了探讨。你可能会问,为什么我们今天要看一本1994年的书?书里对未来的预测就算再超前,但在今天看,还有借...

2018-10-05 15:24:29 800

转载 吴军-《智能时代》

Table of Contents对AI的三种观点AI的突破数据、信息和知识数据的特征如何处理数据从机械思维到大数据思维机械思维确定性因果关系大数据思维熵强关联性如何面对AI总结对AI的三种观点现在人工智能这个话题非常火,特别是阿尔法狗击败李世石后,各种对于人工智能的想象都冒出来,有特别乐观的,认为人工智能马上就会在社会中大规模的普及...

2018-10-05 11:01:44 553

转载 问题生成(QG)与答案生成(QA)

继续 QG,梳理一下 MSRA 其他 3 篇关于 QG 的 paper:Two-Stage Synthesis Networks for Transfer Learning in Machine Comprehension Question Answering and Question Generation as Dual Tasks A Joint Model for Question ...

2018-09-23 00:00:33 2055

转载 多轮对话之对话管理(Dialog Management)

Table of ContentsDialog ManagementInitiativeBasic conceptsChallengesStructure-based ApproachesKey Pharse Reactive ApproachesTrees and FSM-based ApproachesPrinciple-based ApproachesFr...

2018-09-22 23:52:35 4608

转载 一句话描述常用机器学习算法

摘要: 浓缩就是精华。想要把书写厚很容易,想要写薄却非常难。现在已经有这么多经典的机器学习算法,如果能抓住它们的核心本质,无论是对于理解还是对于记忆都有很大的帮助,还能让你更可能通过面试。在本文中,SIGAI将用一句话来总结每种典型的机器学习算法,帮你抓住问题的本质,强化理解和记忆。下面我们就开始了。导言浓缩就是精华。想要把书写厚很容易,想要写薄却非常难。现在已经有这么多经典的机器学习算法...

2018-09-22 23:27:34 310

转载 数据可视化 -- seaborn

Table of Contents1  set_style( )  set( )2  distplot( )  kdeplot( )3  箱型图 boxplot( )4  联合分布jointplot( )5  热点图heatmap( )6  pairplot( )7  FacetGrid( )Seaborn其实是在matplotlib的基础上进行了更高级的API封装...

2018-09-14 23:30:49 99

转载 Python Data Analysis Library -- Pandas

Table of Contents创建对象查看数据选择缺失值处理相关操作合并分组Reshaping时间序列Categorical画图导入和保存数据本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上,我们会按下...

2018-09-14 23:03:57 281

转载 高纬度矩阵运算--NumPy

 Table of ContentsNumPy数组NumPy数组属性创建数组输出数组目前我的工作是将NumPy引入到Pyston中(一款Dropbox实现的Python编译器/解释器)。在工作过程中,我深入接触了NumPy源码,了解其实现并提交了PR修复NumPy的bug。在与NumPy源码以及NumPy开发者打交道的过程中,我发现当今中文NumPy教程大部分都是翻译或参考...

2018-09-14 22:49:39 298

转载 Python交互式Shell--Jupyter Notebook

Table of Contents安装新建notebookHeader和 Markdown单元格操作Markdown 单元格高级用法导出功能Matplotlib 集成非本地内核结语Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。在本文中,我们将介绍 Jupyter notebo...

2018-09-14 06:36:40 2205

原创 文本向量化

Table of Contents概述word2vecNNLMC&WCBOW and Skip-gramdoc2vec/str2vec概述文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化就是将文本表示成一系列能够表达文本语义的向量,是文本表示的一种重要方式。目前对文本向量化大部分的研究都是通过词向量化实现的,...

2018-09-02 15:50:35 6405

原创 关键词提取算法

Table of Contents概述TF-IDF算法传统算法加权变种TextRank算法PageRankTextRankLSA/LSI/LDA算法LSA/LSILDA概述关键词是代表文章重要内容多一组词,对文本聚类、分类、自动摘要等起重要的作用。现实中大量文本不包含关键词,如果我们可以准确的将所有文档都用几个简单的关键词描述出来,就能使人们便捷地浏...

2018-08-31 00:38:16 8184

原创 词性标注与命名实体识别

Table of Contents词性标注简介词性标注规范jieba命名实体识别简介基于条件随机场的命名实体识别词性标注简介词性是词汇基本的语法属性,也称为词类。词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。整体上看在中...

2018-08-29 23:56:31 5315

原创 中文分词技术

Table of Contents简介规则分词正向最大匹配法(Maximum Match Method, MM法)逆向最大匹配法(Reverse Maximum Match Method, RMM法)双向最大匹配法(Bi-direction Matching Method, BM法)统计分词HMMCRF混合分词(规则+统计)jieba三种分词模式简介...

2018-08-29 00:01:15 1419

转载 两篇不错的Kaggle入门总结

Table of ContentsGeneral ApproachData ExplorationData PreprocessingFeature EngineeringModel SelectionEnsemble Generation*PipelineHome Depot Search RelevanceEDAPreprocessingFeatur...

2018-08-21 08:30:05 287

原创 机器学习笔记7 -- KNN & K-Means

Table of Contents三种监督学习算法有监督学习算法无监督半监督KNN(K-Nearest Neighbor/K-近邻算法)基本思想:问题及优化方法K-Means基本思想K-Means算法的局限三种监督学习算法有监督学习算法训练数据中同时拥有输入变量和输出变量,用一个算法把从输入到输出的映射关系学习出来,当我们拿到新的数据后,就可以通...

2018-08-20 21:42:32 213

转载 初识LSTM长短期记忆网格

本文为译文,喜欢阅读原版的请转 Understanding LSTM NetworksTable of ContentsRecurrent Neural Networks长期依赖(Long-Term Dependencies)问题LSTM 网络LSTM 的核心思想逐步理解 LSTMLSTM 的变体结论Recurrent Neural Networks人类并不...

2018-08-18 17:51:41 211

转载 初识RNN循环神经网络、Seq2Seq、Attention机制

本文主要是利用图片的形式,详细地介绍了经典的RNN、RNN几个重要变体,以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角,帮助初学者更好地入门。Table of Contents一、从单层网络谈起二、N vs N(RNN经典结构)三、N VS 1(类别判断)四、1 VS N(生成模型)五、N vs M(Seq2Seq模型)六、Atten...

2018-08-18 17:22:35 712

转载 马拉松赛前准备以及注意事项

Table of Contents装备篇训练篇比赛篇赛后篇装备篇护脚:训练及赛前要把脚趾甲剪短、剪平;可通过足浴放松,并经常用热水泡脚;号码布:最好在比赛前一天睡觉前缝好,避免第二天早上手忙脚乱;运动装:应遵循宽松、透气和吸汗的原则,衣服不宜过多或过少,以免影响运动或肌肉痉挛;跑鞋:应选择穿着轻便、舒适、透气、耐磨的跑鞋,最好在赛前已穿过数次,经过磨合。建议...

2018-08-18 12:57:13 3757

原创 初识CNN卷积神经网络

作用及优势卷积神经网络(Convolutional Neural Networks)本质上是一个多层感知机,其成功的关键在于它所采用的局部连接和共享权值的方式,一方面减少了的权值的数量使得网络易于优化,另一方面降低了过拟合的风险。 实现过程及意义卷积对图像【下图绿色大正方形】(不同的数据窗口数据)和滤波矩阵【下图黄色小正方形】(一组固定的权重:因为每个神经元的多个权重固定,所以...

2018-08-16 23:41:40 174

原创 机器学习笔记6 -- 隐马尔科夫模型 Hidden Markov Model

Table of Contents问题域为什么HMM可以解决NLP问题HMM基于两个假设模型训练三组参数三个基本问题问题域概率模型将学习任务归结于计算变量的概率分布,其核心是如何基于可观测变量推测出未知变量的条件分布。概率图模型就是一类用图来表达变量相关关系的概率模型,根据性质不同可以分为两类:第一类是使用有向无环图表示变量之间的依赖关系,称为有向图模型或者贝叶...

2018-08-11 21:53:18 388

原创 数据结构与算法分类练习--动态规划

动态规划算法通常基于一个递推公式[状态转移公式]及一个或多个初始状态[边界]。 当前子问题的解将由上一次子问题的解[最优子结构]推出。使用条件:当问题具有“最优子结构”、“子问题重叠”、“边界”时,就可以用动态规划求解。动态规划和贪心算法的区别:贪心不能保证求得的最后解是最佳的;不能用来求最大或最小解问题;  下面以找钱为例对两个算法进行对比:如何用1,5,11三种面额的纸币找...

2018-08-05 23:17:41 91

原创 数据结构与算法分类练习--DFS BFS

深度优先遍历:对每一个可能的分支路径深入到不能再深入为止,不全部保留结点,占用空间少;有回溯操作(即有入栈、出栈操作),运行速度慢。广度优先遍历:又叫层次遍历,从上往下对每一层依次访问,在每一层中,从左往右(也可以从右往左)访问结点,访问完一层就进入下一层,保留全部结点,占用空间大; 常用优先队列,无回溯操作,运行速度快。Number of Islands 小岛数量Given a 2d...

2018-08-04 23:52:42 110

原创 数据结构与算法分类练习--字典 字符串

字典是Python语言中唯一的映射类型。格式为:d = {key1 : value1, key2 : value2 }映射类型对象里哈希值(键,key)和指向的对象(值,value)是一对多的的关系,通常被认为是可变的哈希表。字典对象是可变的,它是一个容器类型,能存储任意个数的Python对象,其中也可包括其他容器类型。字典类型与序列类型(列表,元组)的区别是存取和访问数据的方式不同...

2018-08-02 23:27:14 109

原创 数据结构与算法分类练习--二分查找 二叉排序 位操作

在有序表中查找元素常常使用二分查找(Binary Search),又称折半查找。套路总结# 这里必须是<=,保证可以检测到最后一个数值while (left <= right) { # 在其它语言中直接使用(left + right) / 2可能会超出边界值 > 2^32,但在python中,超出机器自身所能支持的范围时,会自动转换大数计算。 int mi...

2018-07-31 23:09:45 100

原创 数据结构与算法分类练习--树 图

生产力专家说,突破是通过“非线性”来思考的,树就是计算树中最重要的非线性数据结构之一。树结构确实是数据组织中的一个突破,因为它们允许我们实现比使用线性数据结构(如基于数组的列表或链表)快很多的算法。树的主要的用途是用来提高查找效率,如二叉排序树、FP-树。另外可以用来提高编码效率,如哈弗曼树。 树也为数据提供了自然的组织,因此在文件系统、图形用户界面、数据库、网站和其他计算机系统中已经成为无处不在...

2018-07-29 23:56:31 229

原创 数据结构与算法分类练习--递归 回溯 分治

递归是在运行过程中调用自己,最常见的例子就是斐波纳契数列。递归算法的优点是它能使一个蕴含递归关系且结构复杂的程序简介精炼, 增加可读性. 缺点是每一级递归都需要调用函数, 会创建新的栈,随着递归深度的增加, 创建的栈越来越多, 效率低, 让费内存空间. 解决方案是把递归转换为尾递归。尾递归基于函数的尾调用, 每一级调用直接返回函数的返回值更新调用栈,而不用创建新的调用栈, 类似迭代的实现, 时间和...

2018-07-28 17:00:15 180

原创 数据结构与算法分类练习--贪心算法

贪心算法是解决最优化问题的一种方法,解决过程中总是做出当下(局部)最好的选择,因为具有最优子结构的特点,局部最优解可以得到全局最优解;最优子结构最优子结构反映了分解问题的方式,我们在解决问题的时候,都会尝试将问题分解成子问题,进而会产生局部解(总体解的子结构)。通常局部解不止一个,当局部解是局部最优解,并且该局部最优解是全局最优解的一部分时,我们称子问题的最优解为 最优子结构。求解步骤...

2018-07-26 23:39:04 560

原创 数据结构与算法分类练习--栈 队列 堆

栈LIFO: last-in, first-out 后进先出。两种操作:PUSH--压入;POP--弹出。python中可以使用list来实现栈。PUSH操作相当于list.append(x),POP操作相当于list.pop()。队列FIFO: first-in, first-out 先进先出。队列有队头和队尾,当一个元素入队时,被放在队尾的位置;而出队的元素则总是在队头的那个。...

2018-07-26 00:54:21 111

原创 Python数据结构与算法分类练习--链表

在有些情况下,存储数据的内存分配不能位于连续的内存块中。 通过指针将其中数据和数据元素的下一个位置的地址都存储起来,这样从当前数据元素的值中就知道下一个数据元素的地址。通常这样的结构被称为指针,而在Python中称为节点。class Node(object): def __init__(self, x): self.data = x self.next...

2018-07-25 01:10:31 264

原创 启发式对话中的知识管理

本文为EDU公开课[启发式对话中的知识管理--思必驰 葛付江]学习笔记,欢迎参考指正。Table of Contents对话系统的架构对话系统流程对话系统架构机器人评价指标及现状启发式对话系统对话系统中的知识管理知识在对话意图理解中的作用知识在对话管理中的作用总结对话系统的架构对话系统和问答系统的区别是有上下文场景,需要控制对话状态来完整理解用户意图...

2018-07-23 00:29:21 425

原创 强化学习概览

什么是强化学习强化学习是机器学习中的一个分支, 机器通过不断地尝试, 从错误中学习, 最后找到规律, 学会了达到目的的方法. Alpha go就是强化学习的应用实例。强化学习的设置由两部分组成,一个是智能体(agent),即强化学习算法;另一个是环境,指的是agent执行动作时所处的场景(如游戏本身)。环境首先向智能体发送一个状态,然后智能体基于其知识采取动作来响应该状态。之后,环境发送下...

2018-07-22 20:27:22 232

转载 入行 AI,如何选个脚踏实地的岗位

0. 引子AI原本是一个专业领域,没什么特别的。作为码农一枚,笔者的工作内容正好在这个领域。近来这一年左右时间里,连续发生了多件事情,使得笔者不得不抬起原本一直低着敲代码的头,看看这个为AI狂欢的世界。【Case 1】 居然在一个月里碰到两位在相对传统行业创业的亲友,来打听将AI技术应用到他们所在行业上的问题,例如:是聊天机器人是否可以代替人工客服。两位亲友居然都动了雇佣一位算法...

2018-07-19 00:21:40 342

转载 2018 全球人工智能与机器人峰会(CCF-GAIR)--探讨自然语言处理的商业落地

本文对参加圆桌会议嘉宾的观点进行了整理。云孚科技--专注于为企业提供自然语言处理技术解决方案。创始人兼 CEO 张文斌:商业化的本质首先一定要盈利,其次要做到规模化盈利。人工智能这一块的创业公司要盈利,大方向有两个,做 toC 直接面对消费者,和做 toB 面对企业。云孚科技选择了 toB,周期相对可控,比较容易把营收做起来。规模化盈利又有两个方向,创业公司选择最多的是深入行业做垂...

2018-07-19 00:11:36 333

原创 剑指Offer -- Python版

第2章 面试基础知识2.2 编程语言面试题2 使用Python实现单例模式单例模式(Singleton Pattern)是一种常用的软件设计模式,该模式的主要目的是确保某一个类只有一个实例存在。当你希望在整个系统中,某个类只能出现一个实例时,单例对象就能派上用场。单例模式的要点有三个;一是某个类只能有一个实例;二是它必须自行创建这个实例;三是它必须自行向整个系统提供这个实例。其...

2018-07-18 00:06:49 595

原创 短文本分类概述

Table of Contents定义特点及难点分类方法(转 有修改)-传统文本分类方法-深度学习文本分类方法评价指标定义短文本通常是指长度比较短,一般不超过160个字符的文本形式,如微博、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等。短文本分类任务的目的是自动对用户输入的短文本进行处理,得到有价值的输出。在chatbot的构建过程中,对用户的意图进...

2018-07-17 00:57:52 9288

转载 2017年深度学习NLP重大进展与趋势

重大进展DL在很多常见的 NLP 任务中取得了顶尖的结果,如命名实体识别(NER)、词性标注(POS tagging)或情感分析,在这些任务中神经网络模型优于传统方法。而机器翻译的进步或许是最显著的。从训练 word2vec 到使用预训练模型词嵌入是用于自然语言处理(NLP)的最广为人知的深度学习(DL)技术。它遵循由 Harris(1954)提出的分布式假设,根据该假设,具有相似含义...

2018-07-15 13:44:45 708

提示
确定要删除当前文章?
取消 删除