2017年12月_AI深入浅出

原创 2017 Bye，2018 Day Day Up

已经走过的时间，有时好似雾里看花，懵懵懂懂；好在回头看可见成长的步伐~So，余生的每一天里，都别忘了感谢一路前行的自己！！！我们力争做最优秀的AI内容全栈搬运工，因为我们的能力和力量有限，成长需要站在巨人的肩膀上，汲取知识让我们更快的成长。"搬运"是指standing on the shoulders of Giants，更多的分享是在理解实践后形成的原创。在过去的两个月里，越来越的人成为我们前进

2017-12-31 00:00:00 899

转载总结 | 常用文本特征选择

在机器学习中，特征属性的选择通常关系到训练结果的可靠性，一个好的特征属性通常能起到满意的分类效果。凡是特征选择，总是在将特征的重要程度量化后再进行选择，而如何量化特征的重要性，就成了各种方法间最大的不同。接下来就介绍如何有效地进行文本的特征属性选择。文本分类作为一种有效的信息检索和信息过滤的关键技术，能按预定义的类别将待分类的文本进行归类。文本分类中常用到向量空间模型（VSM），然而高维的向量空间

2017-12-29 00:00:00 6185

原创 Logistic Regression Models分析交互式问答[译]

本文是一篇关于交互式问答系统中如何通过文本特征工程构建和Logistic Regression判定话题/主题/意图延续还是转换的论文，提供了一条比较好的思路，对于整理问答语料以及问答系统都有很大的指导意义。由于时间和小编水平都有限的情况，翻译理解不当的地方，请大家提出来，我们一起优化。原文：AnalyzingInteractive QA Dialogues using Logistic Regr

2017-12-28 00:00:00 721

转载浅入深出之大话SoftMax

先来张超喜欢的硬图~~~让近来忙的团团转的自己开心一哈看到这图莫名的充满了力量，还不禁嘴角上扬（已然忘记了图的出处，若你知道图片来源请告知俺）言归正传，前段时间分享了一些文本分类和文本特征的文章，其中有一篇关于Word2Vec的文本分类特征提取之Word2Vec，里面上来就提到了SoftMax，后台有小伙伴反馈，SoftMax是怎么回事？有没有这方便的笔记分享？正好近来小编也在学习，倒是搜集了一些

2017-12-27 00:00:00 598

转载从最大方差来看主成分分析PCA

Happy Christmas！All things are difficult before they are easy.在许多领域的研究与应用中，往往需要对反映事物的多个变量进行大量的观测，收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息，但也在一定程度上增加了数据采集的工作量，更重要的是在多数情况下，许多变量之间可能存在相关性，从而增加了问题分析的复杂性，同时

2017-12-25 00:00:00 1175

原创 Tesseract-OCR 3.0.1训练自己的语言库之图像文字识别

关于印刷文字识别依然是图像领域的难点问题，还有很多的单位或个人希望拥有自己的语言识别模型。近来，在各大论坛、学习交流群、后台私信等还会看到仍然有同种志群的人才再不断的加入这个领域。小编初做文字识别方面的调研工作时，也耗费了不少精力，算个入门吧！把当初记录在CSDN，关于如何使用tesseract-ocr训练属于自己的模型/语言库，分享至此。希望对在这条路上摸索的小伙伴，有所帮助。训练过程中涉及到的

2017-12-24 00:00:00 3879

转载常见文本相似度量方法总结

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。　　本文的目的就是对常用的相似性度量作一个总结。本文目录：1. 欧氏距离2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦8.

2017-12-22 00:00:00 2721

转载文本特征工程之N-Gram

文本特征的选择和提取，是传统文本分类的核心内容。最近在做文本的特征工程构建，陆陆续续搜集到一些公认的对文本表征能力比较强的特征，比如频次法、tf-idf、互信息方法、N-Gram、Word2Vec等，文本特征包含以上这些但也不限于这些。频次法频次法，顾名思义，十分简单。它记录每篇文章的次数分布，然后将分布输入机器学习模型，训练一个合适的分类模型。对这类数据进行分类，需要指出的是：在统计次数分布时，

2017-12-20 00:00:00 8882

转载干货|免费文本语料训练数据集

关于Word2Vec，上篇文章文本分类特征提取之Word2Vec中已有还算详尽的叙述。简单总结下：word2vec是Google在2013年提出的一款开源工具，其是一个Deep Learning模型（实际上该模型层次较浅，严格上还不能算是深层模型，如果word2vec上层再套一层与具体应用相关的输出层，如Softmax，便更像是一个深层模型），它将词表征成实数值向量，采用CBOW（Continuo

2017-12-18 00:00:00 14807 2

转载文本分类特征提取之Word2Vec

分类问题是人类所面临的一个非常重要且具有普遍意义的问题，我们生活中的很多问题归根到底都是分类问题。文本分类就是根据文本内容将其分到合适的类别，它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索，机器翻译，自动文摘，信息过滤，邮件分类等任务。文本分类技术发展历史 1960-1970：那时主要通过人工+规则（关键词或者正则表达式）的方式，制定规则的人需要对某类目领域有足够的认知和了解。举

2017-12-17 00:00:00 44090 1

转载既生Mahout，何生Spark MLlib ？

Apache Mahout与Spark MLlib均是Apache下的项目，都是机器学习算法库，并且现在mahout已经不再接受MapReduce的作业了，也向Spark转移。那两者有什么关系呢？我们在应用过程中该作何取舍？既然已经有了Mahout，为什么还会再有MLlib的盛行呢？虽然在后续资料搜集解决疑惑的过程中，Mahout和MLlib并非“瑜”和“亮”的关系，但是小编在最初还是忍不住冒出“

2017-12-13 00:00:00 10801

转载官宣：谷歌 AI 中国中心在北京成立

"AI深入浅出"注：Google 开发者大会，于今天（2017.12.13）在上海举行，官宣了一个大新闻：谷歌 AI 中国中心在北京成立。该中心由李飞飞和Google Cloud 研发负责人李佳博士共同领导。李飞飞将会负责中心的研究工作，也会统筹 Google Cloud AI, Google Brain 以及中国本土团队的工作。GoogleCloud人工智能和机器学习团队首席科学李飞飞李飞飞表

2017-12-13 00:00:00 478

转载机器学习算法中不得不知的欠拟合与过拟合问题

在长文|一文读懂什么是机器学习中，介绍了机器学习所解决的问题，以及哪些种类的机器学习方法。还有前面的历史文章中也分享一些机器学习的经典算法。在机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题。一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能力更强。然而，优化到了一定程度就需要解决过拟合的问题了，这个问题也在学术界讨论的比较

2017-12-12 00:00:00 1435

转载干货|开放数据集

各位童鞋，有没有碰到这种情况？看了一篇很好的文章，作者提供了理论上很好的说明，而且还有代码（大笑脸），此时正是马上码起来，测试验证的时候，然而......好像缺少了点啥——数据集（沮丧脸）。当你有需求要结合某种算法先做个POC（俗名DEMO）时，突然发现，此时手上要是有份现成的数据那该多好！！这里有这样一份关于机器学习、文本分析、数据挖掘等相关的数据集，也许正好解你的燃眉之急，至少可以为你省下寻找

2017-12-11 00:00:00 1156

转载 [英语]关于人生的10个残酷真相, 希望你越早知道越好

转载自：流利英语说在人生游戏中，如果你经常感觉到自己总在经历失败，你不是一个人。人生就是一个巨大的谜题，充满了起起伏伏。如果你觉得你经历的失败多于成功，偶尔感受一点严厉之爱也许会有帮助。所以我们总结了会帮助你成长的10个残酷真相。点开语音，跟着英语流利说的口语超能力者Max一起认清这10个人生的残酷真相，然后继续不管不顾地热爱生活。In the game of life, if it ofte

2017-12-09 00:00:00 1245

转载 LR如何在语言理解NLU中实现文本分类

对于Sirius也好，微软小冰也罢，还有度秘、小智、小i等等一些列的问答机器人，已经从方面影响着人类。它们功能强大，既可聊天讲笑话，又可作为业务的客服帮你处理事务，还可知无不言言无不尽的回答各式专业问题，可谓工作小能手。比如像这样：（本来在逗小冰，结果在这午夜，就猝不及防的这麻辣小龙虾刺痛了味蕾.......）还有就像问题解决型机器人，存在的目的是为了帮用户解决具体问题，例如：售前咨询、售后报修、

2017-12-09 00:00:00 1955

转载机器学习之决策树模型组合理解

前言：决策树这种算法有着很多良好的特性，比如说训练时间复杂度较低，预测的过程比较快速，模型容易展示（容易将得到的决策树做成图片展示出来）等。但是同时，单决策树又有一些不好的地方，比如说容易over-fitting，虽然有一些方法，如剪枝可以减少这种情况，但是还是不够的。模型组合（比如说有Boosting，Bagging等）与决策树相关的算法比较多，这些算法最终的结果是生成N(可能会有几百棵以上）棵

2017-12-07 00:00:00 658

转载 TF-IDF不容小觑

来源：机器学习与Python学习有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高等数学，普通人只用10分钟就可以理解，这就是我

2017-12-04 00:00:00 1046

转载人工智能之父艾伦·麦席森·图灵

前段时间承蒙人民邮电出版社的张主编和电子工业出版社的杨主编厚爱，获得馈赠图书——AI圣经《深度学习》和《NLP汉语自然语言处理原理与实践》。虽之前就拜读过这些书籍pdf，拿到纸质版，依然是迫不及待地去饱享这知识盛宴，《NLP…》编者序里有提到一部获奖的英国电影《模仿游戏》。影片改编自安德鲁·霍奇斯编著的传记《艾伦·图灵传》，讲述了“计算机科学之父”艾伦·图灵的传奇人生，故事主要聚焦于图灵协

2017-12-02 00:00:00 4524

AI深入浅出