LeadAI学院-CSDN博客

原创特征工程完全总结

北京 | 高性能计算之GPU CUDA课程11月24—26日3天密集学习快速带你晋级阅读全文>目录1 特征工程是什么？2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4

2017-11-13 00:00:00 4686

原创我与Python | 从Hacker到探索Deep Learning

北京 | 高性能计算之GPU CUDA课程11月24—26日3天密集学习快速带你晋级阅读全文>作者，李良，中国海洋大学、SEI实验室B519NLP小组长组长。为什么是Python人生苦短，我用Python...'Life is short, you need Python!'进入大学之后，我们逐渐“被教授”了C、C++、Ja

2017-11-13 00:00:00 1047

转载常用机器学习算法优缺点及其应用领域

北京 | 高性能计算之GPU CUDA课程11月24—26日3天密集学习快速带你晋级阅读全文>决策树决策树优点1、决策树易于理解和解释，可以可视化分析，容易提取出规则。2、可以同时处理标称型和数值型数据。3、测试数据集时，运行速度比较快。4、决策树可以很好的扩展到大型数据库中，同时它的大小独立于数据库大小。决策树缺点

2017-11-12 00:00:00 662

原创实现与优化深度神经网络

北京 | 高性能计算之GPU CUDA课程11月24—26日3天密集培训快速带你晋级阅读全文>作者，陈伟航，华南理工大学在校学生全连接神经网络辅助阅读：TensorFlow中文社区教程 - 英文官方教程（http://www.tensorfly.cn/tfdoc/tutorials/mnist_tf.html）Linear Model

2017-11-10 00:00:00 998

原创如何使用sklearn进行数据挖掘

北京 | 高性能计算之GPU CUDA课程11月24—26日3天密集培训快速带你晋级阅读全文>1.1、数据挖掘的步骤数据挖掘通常包括数据采集，数据分析，特征工程，训练模型，模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作，在《使用sklearn做单机特征工程》中，我们最后留下了一些疑问：特征处理类都有三个方法fit、transform和f

2017-11-10 00:00:00 1756

原创如何理解SVM | 支持向量机之我见

囫囵吞枣看完SVM，个人感觉如果不好好理解一些概念，或说如果知其然而不知其所以然的话，不如不看。因此我想随便写一写，把整个思路简单地整理一遍。：）SVM与神经网络支持向量机并不是神经网络，这两个完全是两条不一样的路吧。不过详细来说，线性SVM的计算部分就像一个单层的神经网络一样，而非线性SVM就完全和神经网络不一样了（是的没错，现实生活中大多问题是非线性的），详情可以参

2017-11-09 00:00:00 684

原创 ElasticSearch优化系列三：索引过程

大家可能会遇到索引数据比较慢的过程。其实明白索引的原理就可以有针对性的进行优化。ES索引的过程到相对Lucene的索引过程多了分布式数据的扩展，而这ES主要是用tranlog进行各节点之间的数据平衡。所以从上我可以通过索引的settings进行第一优化："index.translog.flush_threshold_ops":"10000" "refresh_interval"

2017-11-09 00:00:00 932

原创使用Python和R语言从头开始理解和编写神经网络

前言本篇文章是原文（https://www.analyticsvidhya.com/blog/2017/05/neural-network-from-scratch-in-python-and-r/）的翻译过来的，自己在学习和阅读之后觉得文章非常不错，文章结构清晰，由浅入深、从理论到代码实现，最终将神经网络的概念和工作流程呈现出来。自己将其翻译成中文，以便以后阅读和复习和网友参考。因时间（文字

2017-11-09 00:00:00 516

现在毕业很难接触到底层架构的实现，架构已经被前辈搭建好了，而且比较稳定，好像只需要学习使用即可，然后实现各种业务逻辑。好像学好一门语言（java、C、C++等）就好，而且每天也就是if else for循环，用不到什么高深的东西，刚毕业很少再去看底层的书。但是出了问题排查的时候、写代码稍微多一点儿的项目的时候就不知从何下手，别说架构设计了。远离浮躁，静下心，读一些底层经典的书，对个人职业生涯受益匪

2017-11-08 00:00:00 267

原创拼图游戏和它的AI算法

写了个拼图游戏，探讨一下相关的AI算法。拼图游戏的复原问题也叫做N数码问题。拼图游戏N数码问题广度优先搜索双向广度优先搜索A*搜索游戏设定实现一个拼图游戏，使它具备以下功能：1、自由选取喜欢的图片来游戏2、自由选定空格位置3、空格邻近的方块可移动，其它方块不允许移动4、能识别图片是否复原完成，游戏胜利时给出反馈

2017-11-08 00:00:00 7930 4

转载疯狂为《英伟达深度学习学院半日免费初级课程》打Call

2017年11月5号，由英伟达深度学习学院、浙江理工大学主办，由丽台（上海）信息科技有限公司、LeadAI学院承办的《英伟达深度学习学院半日初级培训课程（免费）》在百年历史的浙理校内成功举办了。火爆的课程现场我们深知，人工智能的趋势越来越热，其应用的方面也越来越广，近几年的人工智能发展速度比过去几十年都多且快。书本上四年学到的知识，有可能在一天之内，就会被超越。面

2017-11-07 00:00:00 634

转载推荐系统 | 威尔逊区间法

我推荐一种之前在惠普做过一种排序方法：威尔逊区间法我们先做如下设定：（1）每个用户的打分都是独立事件。（2）用户只有两个选择，要么投喜欢'1'，要么投不喜欢'0'。（3）如果总人数为n，其中喜欢的为k，那么喜欢的比例p就等于k/n。这是一种统计分布，叫做"二项分布"（binomial distribution）理论上讲，p越大应该

2017-11-06 00:00:00 7687 1

转载南京的学员看过来 | NVIDIA DLI深度学习入门培训

NVIDIA 深度学习学院：聚焦于人工智能和深度学习，致力于在全世界范围内提供支持，解决最具挑战性的问题。通过线上自主学习，或者线下由 NVIDIA 认证的讲师来教授的培训课程，我们可以帮助开发者、数据科学家、工程师和研究人员开启训练、优化和部署神经网络，从而解决多种学科方面的现实问题，例如自动驾驶、医疗、消费者服务和机器人等。 NVIDIA 深度学习培训自今年三月份开启

2017-11-06 00:00:00 982

转载机器学习实战 | 数据探索(缺失值处理)

点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接接着上一篇：《机器学习实战-数据探索》介绍，机器学习更多内容可以关注github项目：machine learning（https://github.com/jacksu/machine-learning）《机器学习实战-数据探索》介绍了1、变量识别；2、单变量分析；3、双变量分析，现在接着介绍缺失值

2017-11-06 00:00:00 634

原创机器学习实战 | 数据探索

点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接数据的输入质量决定了输出的最后结果，数据的探索、预处理、特征选择、降维等特征工程占了项目的70%的时间。那么如果我们确定了商业目的，该如何一步一步渐进式进行特征工程呢？各位看官不急，请小的慢慢给你道来。在建立模型前，我们大致需要顺序经过以下几步：1、变量识别2、单变量分析

2017-11-05 00:00:00 335

转载机器学习实战 | 数据探索(变量变换、生成)

点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接变量变换1.1、什么是变量变换？在数据建模中，变换是指通过函数替换变量。例如，通过平方/立方根或对数x替换变量x是一个变换。换句话说，变换是一个改变变量与其他变量的分布或关系的过程。1.2、什么时候需要变量变换？当我们想要改变一个变量的比例（ch

2017-11-04 00:00:00 858 1

原创 ElasticSearch优化系列二：机器设置（内存）

点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接预留一半内存给Lucence使用一个常见的问题是配置堆太大。你有一个64 GB的机器，觉得JVM内存越大越好，想给Elasticsearch所有64 GB的内存。当然，内存对于Elasticsearch来说绝对是重要的，用于更多的内存数据提供更快的操作。而且还有一个内存消耗大户-Lucene

2017-11-03 00:00:00 3097

转载 11月北京 | 高性能之GPU CUDA 3天密集式进阶课程

近年来，深度学习和人工智能正在飞速发展，CUDA并行计算平台利用图形处理器GPU的能力，显著提高计算性能。同时，CUDA平台的可编程性和丰富性，让天文学、生物学、化学、物理学、数据挖掘、制造、金融等领域的开发和研究人员加速他们的应用程序，提高工作效率。此次进阶培训课程特邀请NVIDIA人工智能专家吴磊讲解GPU最新VOlta架构特性，并增加了cuDNN和TensorRT在深

2017-11-03 00:00:00 297

原创机器学习之特征工程-特征选择

点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接一个基本的数据挖掘场景如下：数据挖掘.jpg从上面的数据挖掘场景可知，当数据预处理完成后，我们需要选择有意义的特征，输入机器学习的算法模型进行训练。通常来说，从两个方面考虑来选择特征：特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上

2017-11-03 00:00:00 530

转载 Tensorflow之 CNN卷积神经网络的MNIST手写数字识别

点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接作者，周乘，华中科技大学电子与信息工程系在读。前言tensorflow中文社区对官方文档进行了完整翻译。鉴于官方更新不少内容，而现有的翻译基本上都已过时。故本人对更新后文档进行翻译工作，纰漏之处请大家指正。（如需了解其他方面知识，可参阅以下Tensorflow系列文章）。深入MNIST

2017-11-03 00:00:00 2321 1

原创数据预处理 | 机器学习之特征工程

点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接作者：苏小保（jacksu）华为工程师擅长分布式系统、大数据、机器学习。github地址：https://github.com/jacksu通过特征提取，我们能得到未经处理的特征，这时的特征可能有以下问题：不属于同一量纲：即特征的规格不一样，不能够放在一起比较。无量纲化可以解决

2017-11-02 00:00:00 690

原创当常规的算法都山穷水尽之后，你可以试试python中的SMOTE算法

点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接沙韬伟，苏宁易购高级算法工程师。曾任职于Hewlett-Packard、滴滴出行。数据学院特邀讲师。主要研究方向包括风控、推荐和半监督学习。目前专注于基于深度学习及集成模型下的用户行为模式的识别。之前一直没有用过python，最近做了一些数量级比较大的项目，觉得有必要熟悉一下python，

2017-11-02 00:00:00 1876

原创你听过算法也是可以贪心的吗？

点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接贪心算法（又称贪婪算法）是指，在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，他所做出的是在某种意义上的局部最优解。贪心算法不是对所有问题都能得到整体最优解，关键是贪心策略的选择，选择的贪心策略必须具备无后效性，即某个状态以前的过程不会影响以后的状态，只与当前状态

2017-11-02 00:00:00 484

原创 ElasticSearch优化系列一：集群节点规划

点击“阅读原文”直接打开【北京站 | GPU CUDA 进阶课程】报名链接作者：苏小保（jacksu）华为工程师擅长分布式系统、大数据、机器学习。github地址：https://github.com/jacksu节点职责单一，各司其职elasticSearch的配置文件中有2个参数：node.master和node.data。这两个参数搭配

2017-11-02 00:00:00 1239

原创专业工程师看过来~ | RDD、DataFrame和DataSet的细致区别

作者：苏小宝，现任华为工程师。RDD、DataFrame和DataSet是容易产生混淆的概念，必须对其相互之间对比，才可以知道其中异同。RDD和DataFrame上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数，但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了

2017-11-01 00:00:00 1165

原创 python专业方向 | 文本相似度计算

作者系浙江大学生物医学工程专业的硕士在读；专注于自然语言处理 iOS开发。步骤1、分词、去停用词2、词袋模型向量化文本3、TF-IDF模型向量化文本4、LSI模型向量化文本5、计算相似度理论知识两篇中文文本，如何计算相似度？相似度是数学上的概念，自然语言肯定无法完成，所有要把文本转化为向量。两个向量计算相似度就很简单了，欧式距离、余弦相似度等

2017-11-01 00:00:00 830

原创 TensorFlow从1到2 | 第五章非专家莫入！TensorFlow实现CNN

黑猿大叔，自由职业（专注于深度学习在机器视觉领域内的应用），前台企威盛电子资深软件工程师。当看到本篇时，根据TensorFlow官方标准《Deep MNIST for Experts》（https://tensorflow.google.cn/get_started/mnist/pros），你已经达到Expert Level，要恭喜了。且不说是否夸大其词，换一种角度

2017-11-01 00:00:00 369

原创 LSTM模型在问答系统中的应用

作者系京东算法工程师。在问答系统的应用中，用户输入一个问题，系统需要根据问题去寻找最合适的答案。1、采用句子相似度的方式。根据问题的字面相似度选择相似度最高的问题对应的答案，但是采用这种字面相似度的方式并不能有效的捕获用户意图的能力有限。2、IBM早期应用在watson系统中的DeepQa（http://Building%20Watson:%20An%20Ove

2017-10-31 00:00:00 3659

原创调优哪家强——tensorflow命令行参数

作者系中国科学院助理研究员。深度学习神经网络往往有过多的Hyperparameter需要调优，优化算法、学习率、卷积核尺寸等很多参数都需要不断调整，使用命令行参数是非常方便的。有两种实现方式，一是利用python的argparse包，二是调用tensorflow自带的app.flags实现。利用python的argparse包argparse介绍及基本使用：

2017-10-31 00:00:00 547

原创基于自然语言识别下的流失用户预警

沙韬伟，苏宁易购高级算法工程师。曾任职于Hewlett-Packard、滴滴出行。数据学院特邀讲师。主要研究方向包括风控、推荐和半监督学习。目前专注于基于深度学习及集成模型下的用户行为模式的识别。在电商运营过程中，会有大量的用户反馈留言，包括吐槽的差评，商品不满的地方等等，在用户运营生态中，这部分用户是最有可能流失也是最影响nps的人群，通过对其评价的语义分析，每日找出

2017-10-31 00:00:00 822

转载更新版 | GPU CUDA 进阶课程

近年来，深度学习和人工智能正在飞速发展，CUDA并行计算平台利用图形处理器GPU的能力，显著提高计算性能。同时，CUDA平台的可编程性和丰富性，让天文学、生物学、化学、物理学、数据挖掘、制造、金融等领域的开发和研究人员加速他们的应用程序，提高工作效率。培训对象 LeadAI将携手英伟达、丽台科技面向各科研院所、高等院校和企事业单位从事GPU CUDA高性能计算领域或

2017-10-30 00:00:00 600

转载最终章 | TensorFlow战Kaggle“手写识别达成99%准确率

刘颖，某互联网创业公司COO，技术出身，做产品里最懂运营的。这是一个TensorFlow的系列文章，本文是第三篇，在这个系列中，你讲了解到机器学习的一些基本概念、TensorFlow的使用，并能实际完成手写数字识别、图像分类、风格迁移等实战项目。文章将尽量用平实的语言描述、少用公式、多用代码截图，总之这将是一份很赞的入门指南。欢迎分享/关注。上一

2017-10-30 00:00:00 447

原创腾讯云服务器CentOS安装JDK+Tomcat+MySQL详细步骤（以及遇到的各种坑）

作者：王利龙，北京邮电大学在读学生。前言趁着学生期间，买了一个云服务器拿来自己练练手，刚配置一个环境就让自己各种无语，把自己配置的步骤和遇到的问题整理一下。安装过程：安装JDK看了很多资料，都推荐用Oracle JDK，避免Open JDK。因此，这里避免以后出现问题，推荐用Oracle JDK。安装方式：rpm安装下载地址：

2017-10-30 00:00:00 571

原创基于Tensorflow的神经网络解决用户流失概率问题

沙韬伟，苏宁易购高级算法工程师。曾任职于Hewlett-Packard、滴滴出行。数据学院特邀讲师。主要研究方向包括风控、推荐和半监督学习。目前专注于基于深度学习及集成模型下的用户行为模式的识别。前言用户流失一直都是公司非常重视的一个问题，也是AAARR中的Retention的核心问题，所以各大算法竞赛都很关注。比如最近的：KKBOX的会员流失预测算法竞赛（ht

2017-10-30 00:00:00 2528 2

转载 GPU CUDA 杭州宣讲会

近年来，深度学习和人工智能正在飞速发展，CUDA并行计算平台利用图形处理器GPU的能力，显著提高计算性能。同时CUDA平台的可编程性和丰富性，让天文学、生物学、化学、物理学、数据挖掘、制造、金融等领域的开发和研究人员加速他们的应用程序，提高工作效率。宣讲对象LeadAI将携手英伟达、丽台科技面向各科研院所、高等院校和企事业单位从事GPU CUDA高性能计算领域或感兴趣的

2017-10-29 00:00:00 362

转载决策树会有哪些特性？

（点击“阅读原文”即可进入查看课程表）决策树(Decision Tree)是机器学习中最常见的算法，因为决策树的结果简单，容易理解，因此应用超级广泛，但是机器学习的专家们在设计决策树的时候会考虑哪些特性呢？本文根据已有的决策树来分析，一个想象中万能的决策树会有哪些变化？在这以前，先总结下使用决策树的优缺点：优点天然的可解释性。这是决策树最大的优点了。可解释性有两方

2017-10-29 00:00:00 3123

转载用TensorFlow做Kaggle“手写识别”达到98%准确率-详解

（点击“阅读原文”即可进入查看课程表）刘颖，某互联网创业公司COO，技术出身，做产品里最懂运营的。这是一个TensorFlow的系列文章，本文是第三篇，在这个系列中，你讲了解到机器学习的一些基本概念、TensorFlow的使用，并能实际完成手写数字识别、图像分类、风格迁移等实战项目。文章将尽量用平实的语言描述、少用公式、多用代码截图，总之这

2017-10-29 00:00:00 1595 1

leadai的博客