AI深入浅出-CSDN博客

转载学习 | Python之数据结构和流程语句

学习 | Python之简介&安装&第一个Python程序，此文过一遍基本上可以出个“Hello，world！”了。Python作为编程语言家族的一员，自然也是有自己的一套语法，编译器或解释器就是负责把符合语法的程序代码转换成CPU能够执行的机器码，然后执行。此文主要是了解熟悉Python的数据类型和流程语句（if，for，while，独有的dict、set等），还有必不可少的“大坑、小坑、中坑、

2018-01-31 00:00:00 332

转载学习 | Python之简介&安装&第一个Python程序

真是最浅显易懂的Git Python教程啦一文推荐的廖雪峰的教程，有同学建议基于此写一系列实践过程，那么从本篇开始，会陆续写Python的实践学习过程。文末可加微信群~源：https://www.liaoxuefeng.com/用Python可以做什么？可以做日常任务，比如自动备份你的MP3；可以做网站，很多著名的网站包括YouTube就是Python写的；可以做网络游戏的后台，很多在线游戏的后台

2018-01-30 00:00:00 1793

转载 seq2seq和attention如何应用到文档自动摘要

文本自动摘要（Automatic Text Summarization）就是说在不改变文档原意的情况下，利用计算机程序自动地总结出文档的主要内容。自动摘要的应用场景非常多，例如新闻标题生成、科技文献摘要生成、搜索结果片段（snippets）生成、商品评论摘要等。在信息爆炸的互联网大数据时代，如果能用简短的文本来表达信息的主要内涵，无疑将有利于缓解信息过载问题。概述自动摘要可以从很多角度进行分类，例

2018-01-29 00:00:00 5596

转载论文：记忆网络之Gated End-to-End Memory Networks

本文是在End-To-End Memory Networks这篇论文的基础上做了一些修改。因为End-To-End Memory Networks在multi-fact QA、 positional reasoning、 dialog等领域的效果还不是很好，所以本文参考CV领域中HighWay Networks和Residual Networks涉及到的shortcut connections，引

2018-01-28 00:00:00 574

转载认知科学数据集大列表 Center for Data on the Mind

http://www.dataonthemind.org/data-resources/datasets佛系二维码千千万万的公众号中能被你识别就是缘分长按识别二维码关注我们

2018-01-27 00:00:00 494

转载真是最浅显易懂的Git Python教程啦

本文唯一的主旨：记录廖雪峰大牛的教程！系统且浅显易懂！小编受益匪浅，希望可以帮到更多的人！Git、Python基本入门教程，点击“阅读全文”学习！近期热文推荐 | 中文文本标注工具Chinese-Annotator资源 | 2017年GitHub中Top 30开源机器学习项目自然语言对话引擎（技术类）分享 | 由0到1走入Kaggle-入门指导 (长文、干货）常见文本相似度量方法总结干货|免费文本

2018-01-25 00:00:00 1650

转载【干货】程序员常访问的国外技术交流网站汇总——附NLP入门资料链接

PS：因之前没来得及整理自然语言处理入门资料推荐的链接，近来总收到大家私信，目前已整理了中文资料，链接如下：链接: https://pan.baidu.com/s/1dOm9PW 密码: ifz2摘要：技术人员经常会在各种技术交流社区游逛，大家互相学习、交流、分享、帮助。互联网拉近了地球人的距离，让全世界的技术人员可以聚集在一起分享交流。当然因为多方面原因，通常最新最权威的技术知识传到国内存在

2018-01-24 00:00:00 1400

转载 FP-growth算法：高效频繁项集挖掘

Apriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法，处理的都是最简单的单层单维布尔关联规则。FP-growth算法是用来解决频繁项集发现问题的，这个问题再前面我们可以通过Apriori算法来解决，但是虽然利用Apriori原理加快了速度，仍旧是效率比较低的。FP-growth算法则可以解决这个问题。Apriori算法Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法

2018-01-23 00:00:00 1860

转载 [深入浅出] LSTM神经网络

由来人类并不是每时每刻都从一片空白的大脑开始他们的思考。在你阅读这篇文章时候，你都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义。我们不会将所有的东西都全部丢弃，然后用空白的大脑进行思考。我们的思想拥有持久性。传统的神经网络并不能做到这点，看起来也像是一种巨大的弊端。例如，假设你希望对电影中的每个时间点的时间类型进行分类。传统的神经网络应该很难来处理这个问题——使用电影中先前的事件推

2018-01-21 00:00:00 25714 6

转载 BAT人工智能生态时局图：全面战争爆发前夜

本文经AI新媒体量子位（公众号ID：QbitAI）授权转载，转载请联系出处。One More Thing以下文中的BAT时局图，我们还准备了一份高清版，请在"AI深入浅出"公众号对话界面回复“BAT时局”获取。人工智能正在最关键的路口。所谓的第四次工业革命，一定要结出实际的革命成果。广阔天地，谁能大有作为？很多AI创业公司在各自的领域取得了突破，但具备强大的AI技术储备，并且有能力渗透到几乎所有领

2018-01-19 00:00:00 527

转载 Bag of Tricks for Efficient Text Classification

文章摘要这篇文章为文本分类提供了一个简单又高效的模型，fasttext。这个模型在效果上能比肩复杂的深度学习模型的同时，在速度上又快了几个量级。fasttext的结构非常简单，仅仅是word2vec中CBOW模型的一个变形，CBOW是上下文单词的词向量平均去预测中心词，fasttext是整个文档的单词的词向量平均去预测标签。文章亮点这篇个论文的模型非常简单。熟悉word2vec的同学可能一下子就

2018-01-18 00:00:00 427

转载 Tomas Mikolov论文简评：从Word2Vec到FastText

Word2Vec从提出至今，已经成为了深度学习在自然语言处理中的基础部件，大大小小、形形色色的DL模型在表示词、短语、句子、段落等文本要素时都需要用word2vec来做word-level的embedding。Word2Vec的作者Tomas Mikolov是一位产出多篇高质量paper的学者，从RNNLM、Word2Vec再到最近流行的FastText都与他息息相关。一个人对同一个问题的研究可能

2018-01-17 00:00:00 4005

转载推荐 | 中文文本标注工具Chinese-Annotator（内附多个开源文本标注工具）

自然语言处理的大部分任务是监督学习问题。序列标注问题如中文分词、命名实体识别，分类问题如关系识别、情感分析、意图分析等，均需要标注数据进行模型训练。深度学习大行其道的今天，基于深度学习的 NLP 模型更是数据饥渴。本文分享一个中文文本标注工具Chinese-Annotator。■ 项目地址 https://github.com/crownpku/Chinese-Annotator最前沿的 NLP

2018-01-16 00:00:00 20705 3

转载 fastText 之其源码分析

全文字数：除代码阅读时间：16分钟fastText 是 facebook 于2016年开源的一个词向量计算以及文本分类工具，该工具的理论基础是以下两篇论文：Enriching Word Vectors with Subword Information这篇论文提出了用 word n-gram 的向量之和来代替简单的词向量的方法，以解决简单 word2vec 无法处理同一词的不同形态的问题。fastT

2018-01-15 00:00:00 1713 1

转载统计方法之最大似然估计

最大似然估计在文章机器学习算法中不得不知的欠拟合与过拟合问题中，我们详细的论述了模型容量以及由模型容量匹配问题所产生的过拟合和欠拟合问题。这一次，我们探讨哪些准则可以帮助我们从不同的模型中得到特定函数作为好的估计。其中，最常用的准则就是极大似然估计（maximum likelihood estimation，MLE）。（1821年首先由德国数学家C. F. Gauss提出，但是这个方法通常被归功于

2018-01-14 00:00:00 2848 3

转载资源 | 2017年GitHub中Top 30开源机器学习项目

开源机器学习项目是开放资源的一种重要类型，为用户和学习者提供了极大的便利。近期，Mybridge在对比了过去一年中机器学习领域约8800个开源项目后，评选出30个2017年度优秀的开源项目，包含机器学习开源库、数据库以及各种应用程序。Mybridge精选的Top 30项目及源码链接如下：NO1 FastText：快速文本表示和文本分类库在Github已获得11995颗星，贡献者Facebook

2018-01-10 00:00:00 3271

转载自然语言对话引擎（技术类）

机器接收文字、图像或者语音，识别其中的内容，然后给予适当的回复。有的回复很有意思，让人觉得好像电脑后面就坐着一个真实的人，但有的时候回复也差强人意。以下是微软亚洲研究院副院长周明博士分享的他们团队在微软做自然语言人机对话方面的研究，并提供了小冰的关键NLP技术。为大家揭开人工智能的神秘面纱。 1 人机对话的机理人机对话有三个层次，一个是聊天，一个是问答，还有一个是对话，即面向某一特定任务的对话。比

2018-01-09 00:00:00 2018

转载 AdaBoost元算法如何提高分类性能——机器学习实战

http://blog.csdn.net/gamer_gyt一、基本概念元算法（meta-algorithm，又称为集成方法（ensemblemethod)）：是对其他一些算法进行组合的一种方式（当下最流行的元算法是AdaBoost算法），使用集成方法时会有多种形式，可以是不同的算法的集成，也可以是同一种算法在不同设置下的集成，还可以是数据集不同部分分给不同分类器之后的集成。自举汇聚法（boots

2018-01-07 00:00:00 3408

转载奇异值分解(SVD)原理

前言奇异值分解(Singular Value Decomposition，简称SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域，是很多机器学习算法的基石。本文就对SVD的原理做一个总结，并讨论在在PCA降维算法中是如何运用运用SVD的。特征值与特征向量首先回顾下特征值和特征向量的定义如下：Ax=λx其中A是一个n×n的矩阵，x是

2018-01-06 00:00:00 4166

转载邮件分类和过滤-朴素贝叶斯NB经典案例

关于朴素贝叶斯的理论，已在机器学习之朴素贝叶斯分类器中进行了详细说明，但是没有经历coding亲自见证效果，还是无法真正掌握。本篇旨在理论的基础上灵活运用朴素贝叶斯进行分类。再来回顾下朴素贝叶斯分类器的思想、算法流程，顺道把用到的Python函数罗列出来。算法思想比如我们想判断一个邮件是不是垃圾邮件，那么我们知道的是这个邮件中的词的分布，那么我们还要知道：垃圾邮件中某些词的出现是多少，就可以利用贝

2018-01-03 00:00:00 3397

转载分享 | 由0到1走入Kaggle-入门指导 (长文、干货）

18年1月元旦三川：凡是玩数据科学和机器学习的老司机，有两个网站一定不会错过：GitHub 和 Kaggle。前者用来分享，后者进行实战练习。简而言之，Kaggle 是玩数据、ML 的开发者们展示功力、扬名立万的江湖。转自：第一次参加Kaggle拿银总结作者：ScarletPan这篇文章的目的是介绍ScarletPan第一次参加Kaggle的心历路程，总结遇到的问题和解决思路，为自己其以后参赛做准

2018-01-01 00:00:00 1159

原创 2017 Bye，2018 Day Day Up

已经走过的时间，有时好似雾里看花，懵懵懂懂；好在回头看可见成长的步伐~So，余生的每一天里，都别忘了感谢一路前行的自己！！！我们力争做最优秀的AI内容全栈搬运工，因为我们的能力和力量有限，成长需要站在巨人的肩膀上，汲取知识让我们更快的成长。"搬运"是指standing on the shoulders of Giants，更多的分享是在理解实践后形成的原创。在过去的两个月里，越来越的人成为我们前进

2017-12-31 00:00:00 918

转载总结 | 常用文本特征选择

在机器学习中，特征属性的选择通常关系到训练结果的可靠性，一个好的特征属性通常能起到满意的分类效果。凡是特征选择，总是在将特征的重要程度量化后再进行选择，而如何量化特征的重要性，就成了各种方法间最大的不同。接下来就介绍如何有效地进行文本的特征属性选择。文本分类作为一种有效的信息检索和信息过滤的关键技术，能按预定义的类别将待分类的文本进行归类。文本分类中常用到向量空间模型（VSM），然而高维的向量空间

2017-12-29 00:00:00 6303

原创 Logistic Regression Models分析交互式问答[译]

本文是一篇关于交互式问答系统中如何通过文本特征工程构建和Logistic Regression判定话题/主题/意图延续还是转换的论文，提供了一条比较好的思路，对于整理问答语料以及问答系统都有很大的指导意义。由于时间和小编水平都有限的情况，翻译理解不当的地方，请大家提出来，我们一起优化。原文：AnalyzingInteractive QA Dialogues using Logistic Regr

2017-12-28 00:00:00 751

转载浅入深出之大话SoftMax

先来张超喜欢的硬图~~~让近来忙的团团转的自己开心一哈看到这图莫名的充满了力量，还不禁嘴角上扬（已然忘记了图的出处，若你知道图片来源请告知俺）言归正传，前段时间分享了一些文本分类和文本特征的文章，其中有一篇关于Word2Vec的文本分类特征提取之Word2Vec，里面上来就提到了SoftMax，后台有小伙伴反馈，SoftMax是怎么回事？有没有这方便的笔记分享？正好近来小编也在学习，倒是搜集了一些

2017-12-27 00:00:00 622

转载从最大方差来看主成分分析PCA

Happy Christmas！All things are difficult before they are easy.在许多领域的研究与应用中，往往需要对反映事物的多个变量进行大量的观测，收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息，但也在一定程度上增加了数据采集的工作量，更重要的是在多数情况下，许多变量之间可能存在相关性，从而增加了问题分析的复杂性，同时

2017-12-25 00:00:00 1220

原创 Tesseract-OCR 3.0.1训练自己的语言库之图像文字识别

关于印刷文字识别依然是图像领域的难点问题，还有很多的单位或个人希望拥有自己的语言识别模型。近来，在各大论坛、学习交流群、后台私信等还会看到仍然有同种志群的人才再不断的加入这个领域。小编初做文字识别方面的调研工作时，也耗费了不少精力，算个入门吧！把当初记录在CSDN，关于如何使用tesseract-ocr训练属于自己的模型/语言库，分享至此。希望对在这条路上摸索的小伙伴，有所帮助。训练过程中涉及到的

2017-12-24 00:00:00 3919

转载常见文本相似度量方法总结

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。　　本文的目的就是对常用的相似性度量作一个总结。本文目录：1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8.

2017-12-22 00:00:00 2814

转载文本特征工程之N-Gram

文本特征的选择和提取，是传统文本分类的核心内容。最近在做文本的特征工程构建，陆陆续续搜集到一些公认的对文本表征能力比较强的特征，比如频次法、tf-idf、互信息方法、N-Gram、Word2Vec等，文本特征包含以上这些但也不限于这些。频次法频次法，顾名思义，十分简单。它记录每篇文章的次数分布，然后将分布输入机器学习模型，训练一个合适的分类模型。对这类数据进行分类，需要指出的是：在统计次数分布时，

2017-12-20 00:00:00 8982

转载干货|免费文本语料训练数据集

关于Word2Vec，上篇文章文本分类特征提取之Word2Vec中已有还算详尽的叙述。简单总结下：word2vec是Google在2013年提出的一款开源工具，其是一个Deep Learning模型（实际上该模型层次较浅，严格上还不能算是深层模型，如果word2vec上层再套一层与具体应用相关的输出层，如Softmax，便更像是一个深层模型），它将词表征成实数值向量，采用CBOW（Continuo

2017-12-18 00:00:00 14955 2

转载文本分类特征提取之Word2Vec

分类问题是人类所面临的一个非常重要且具有普遍意义的问题，我们生活中的很多问题归根到底都是分类问题。文本分类就是根据文本内容将其分到合适的类别，它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索，机器翻译，自动文摘，信息过滤，邮件分类等任务。文本分类技术发展历史 1960-1970：那时主要通过人工+规则（关键词或者正则表达式）的方式，制定规则的人需要对某类目领域有足够的认知和了解。举

2017-12-17 00:00:00 44207 1

转载既生Mahout，何生Spark MLlib ？

Apache Mahout与Spark MLlib均是Apache下的项目，都是机器学习算法库，并且现在mahout已经不再接受MapReduce的作业了，也向Spark转移。那两者有什么关系呢？我们在应用过程中该作何取舍？既然已经有了Mahout，为什么还会再有MLlib的盛行呢？虽然在后续资料搜集解决疑惑的过程中，Mahout和MLlib并非“瑜”和“亮”的关系，但是小编在最初还是忍不住冒出“

2017-12-13 00:00:00 10911

转载官宣：谷歌 AI 中国中心在北京成立

"AI深入浅出"注：Google 开发者大会，于今天（2017.12.13）在上海举行，官宣了一个大新闻：谷歌 AI 中国中心在北京成立。该中心由李飞飞和Google Cloud 研发负责人李佳博士共同领导。李飞飞将会负责中心的研究工作，也会统筹 Google Cloud AI, Google Brain 以及中国本土团队的工作。GoogleCloud人工智能和机器学习团队首席科学李飞飞李飞飞表

2017-12-13 00:00:00 496

转载机器学习算法中不得不知的欠拟合与过拟合问题

在长文|一文读懂什么是机器学习中，介绍了机器学习所解决的问题，以及哪些种类的机器学习方法。还有前面的历史文章中也分享一些机器学习的经典算法。在机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题。一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能力更强。然而，优化到了一定程度就需要解决过拟合的问题了，这个问题也在学术界讨论的比较

2017-12-12 00:00:00 1459

转载干货|开放数据集

各位童鞋，有没有碰到这种情况？看了一篇很好的文章，作者提供了理论上很好的说明，而且还有代码（大笑脸），此时正是马上码起来，测试验证的时候，然而......好像缺少了点啥——数据集（沮丧脸）。当你有需求要结合某种算法先做个POC（俗名DEMO）时，突然发现，此时手上要是有份现成的数据那该多好！！这里有这样一份关于机器学习、文本分析、数据挖掘等相关的数据集，也许正好解你的燃眉之急，至少可以为你省下寻找

2017-12-11 00:00:00 1193

转载 [英语]关于人生的10个残酷真相, 希望你越早知道越好

转载自：流利英语说在人生游戏中，如果你经常感觉到自己总在经历失败，你不是一个人。人生就是一个巨大的谜题，充满了起起伏伏。如果你觉得你经历的失败多于成功，偶尔感受一点严厉之爱也许会有帮助。所以我们总结了会帮助你成长的10个残酷真相。点开语音，跟着英语流利说的口语超能力者Max一起认清这10个人生的残酷真相，然后继续不管不顾地热爱生活。In the game of life, if it ofte

2017-12-09 00:00:00 1273

转载 LR如何在语言理解NLU中实现文本分类

对于Sirius也好，微软小冰也罢，还有度秘、小智、小i等等一些列的问答机器人，已经从方面影响着人类。它们功能强大，既可聊天讲笑话，又可作为业务的客服帮你处理事务，还可知无不言言无不尽的回答各式专业问题，可谓工作小能手。比如像这样：（本来在逗小冰，结果在这午夜，就猝不及防的这麻辣小龙虾刺痛了味蕾.......）还有就像问题解决型机器人，存在的目的是为了帮用户解决具体问题，例如：售前咨询、售后报修、

2017-12-09 00:00:00 1980

转载机器学习之决策树模型组合理解

前言：决策树这种算法有着很多良好的特性，比如说训练时间复杂度较低，预测的过程比较快速，模型容易展示（容易将得到的决策树做成图片展示出来）等。但是同时，单决策树又有一些不好的地方，比如说容易over-fitting，虽然有一些方法，如剪枝可以减少这种情况，但是还是不够的。模型组合（比如说有Boosting，Bagging等）与决策树相关的算法比较多，这些算法最终的结果是生成N(可能会有几百棵以上）棵

2017-12-07 00:00:00 686

转载 TF-IDF不容小觑

来源：机器学习与Python学习有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高等数学，普通人只用10分钟就可以理解，这就是我

2017-12-04 00:00:00 1070

转载人工智能之父艾伦·麦席森·图灵

前段时间承蒙人民邮电出版社的张主编和电子工业出版社的杨主编厚爱，获得馈赠图书——AI圣经《深度学习》和《NLP汉语自然语言处理原理与实践》。虽之前就拜读过这些书籍pdf，拿到纸质版，依然是迫不及待地去饱享这知识盛宴，《NLP…》编者序里有提到一部获奖的英国电影《模仿游戏》。影片改编自安德鲁·霍奇斯编著的传记《艾伦·图灵传》，讲述了“计算机科学之父”艾伦·图灵的传奇人生，故事主要聚焦于图灵协

2017-12-02 00:00:00 4666

空空如也

空空如也