自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大数据挖掘DT数据分析

手把手带你玩各种数据分析案例,涵盖数据分析工具使用,数据挖掘算法原理与案例,深度学习,机器学习,R语言,Python编程,爬虫。

  • 博客(123)
  • 收藏
  • 关注

转载 RF、GBDT、XGBoost面试级整理

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadwRF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。   根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:即个体学习器之间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存在强

2018-03-22 00:00:00 636

转载 Twitter情感分析及其可视化

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw本文 github 地址在公众号 datadw 里 回复 推特 即可获取。主要是基于twitter的内容有:实时热点话题检测情感分析结果可视化Twitter数据挖掘平台的设计与实现实时热点话题挖掘Twitter的数据量是十分庞大的。为了能够了解Twitter上人们在谈论些什么,我们希望能够有一种有效的方 式来获取

2018-03-21 00:00:00 12541 1

转载 一个强化学习 Q-learning 算法的简明教程

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw 本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译,共分两部分,第一部分为中文翻译,第二部分为英文原文。翻译时为方便读者理解,有些地方采用了意译的方式,此外,原文中有几处笔误,在翻译时已进行了更正。这篇教程通俗易懂,是一份很不错

2018-03-19 00:00:00 8012 5

转载 天池大赛—商场中精确定位用户所在店铺 作品分享

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw本文初赛、决赛代码 github 地址在公众号 datadw 里 回复 定位  即可获取。题目回顾题目地址:题目要求给定一条用户的消费记录,求该用户当前所在的店铺。下面介绍题目数据和评测方式1. 店铺和商场信息表(mall)2.  用户店铺内交易表(train)3. 评测集(test)评测集和和表2差不多,只是把

2018-03-17 00:00:00 3555 4

转载 如何用 Python 攻克「最强大脑」

最强大脑之【七阶立方密码】在 2018 年《最强大脑之燃烧吧大脑》节目中,来自清华大学的杨易和来自北京大学的 刘宇进行了个人淘汰赛,两个人所要挑战的项目是“七阶立方密码”。七阶立方是由 343 个立方格组成,表面 218 加上内部的 125 个立方格。嘉宾出题则是 要选择两面,并选择两个质数隐藏,而后系统会随机选择五个立方格将质数隐藏,这七个质 数两两连线,并且有两个直线互相垂直,并且相交就是选手

2018-03-14 00:00:00 1502

转载 极简增强学习新手教程 返回专栏查看评论

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw“如何学习新技能?”这是一个全球科学家都在研究的基础问题。为什么会想要知道这个问题的答案呐,答对了好处都有啥呢?因为一旦我们能够理解这一点,就可以实现一些前人难以想象的事情。 比如让机器自己学习来完成许多“人类才能完成的任务”,从而制造出真正的人工智能。不过目前为止对上述问题大家都还没有一个完整的答案,但有一些事

2018-03-12 00:00:00 658

转载 百度魅族深度学习大赛初赛冠军作品(图像识别.源码)

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw本文初赛、决赛代码 github 地址、数据集在公众号 datadw 里 回复 图像识别  即可获取。赛题以识别类似手写体的四则运算式为主题,参赛者需要在充满干扰信息的10万张图片中,设计算法识别图片上数学运算式并计算结果。决赛在初赛的基础上,引入分数和更加复杂的运算,同样以最终的识别率来评判算法。本节会详细介绍

2018-03-10 00:00:00 1825 1

转载 从情感分析到用户画像,CCF大数据与计算智能大赛 作品源码资料整理

向AI转型的程序员都关注了这个号???大概的调研情况如下:比赛官网 http://www.datafountain.cn/#/home比赛主要涉及大数据与人工智能领域,这是比较新的领域,这个比赛的先进性以及后期的发展潜力是毋庸置疑的。其次,比赛的出题企业也是非常优质的。去年的主办方邀请了国家电网、蚂蚁金服、搜狗这种重量级的企业,可以体会到比赛坚强的后盾和企业对于这个比赛的巨大期望。最后,在比赛的规

2018-03-09 00:00:00 3749

转载 2018想要薪资翻倍?你需要掌握这个技能

近期很多人都在说想学习hadoop大数据,马云也说了:“未来最大的资源就是数据,不参与大数据十年后一定会后悔!”目前腾讯的社交数据,百度的搜索数据以及阿里的交易数据每天都是PB级别,都是公司最重要的资产。懂得大数据的工程师已成为炽手可热的人才,平均起薪已达年薪30万以上,BAT大量需要这方面人才,这也是进入大公司的捷径。鉴于此,推荐一位非常牛逼的Hadoop技术牛人:林中天,花名:铁匠。计算机硕士

2018-03-08 00:00:00 826

转载 基于图像视觉词汇的文本分类方法(完整项目)

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw一年多以前我脑子一热,想做一款移动应用:一款给学生朋友用的“错题集”应用,可以将错题拍照,记录图像的同时,还能自动分类。比如拍个题目,应用会把它自动分类为"物理/力学/曲线运动"。当然,这个项目其实不靠谱,市场上已经有太多“搜题”类应用了。但过程很有趣,导致我过了一年多,清理磁盘垃圾时,还舍不得删掉这个项目的“成

2018-03-05 00:00:00 2442

转载 智慧航空AI大赛-阿里云算法大赛总结(源码分享)

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw总结一下新的教训1.由于都是NP难题,获得最优解用常规的方法非常困难,对于不是算法科班出身的人来说,首先应该到网络上寻找一下论文,是否有一些好的经验。2.保持平常心,这种比赛获奖很困难,生活还是要和往常一样,只是将空余的时间给做比赛3.每一个小功能,小函数,尽可能做一些简单的单元测试,这种题目往往代码最后非常复杂

2018-03-03 00:00:00 2326

转载 机器学习工程师31门课程(视频):从新手到专业

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw机器学习不仅仅是模型产生这个问题的原因就是所有人都以为机器学习的模型就是机器学习本身,以为对那些个算法理解了就是机器学习的大牛了,但实际上完全不是这样的。模型是谁在玩呢?模型是科学家发明出来的, 是各个大公司的各个科学家,研究员发明出来的,这个发明出来是会出论文的,是他们用来虐我们的智商的,一般情况下,你发明不了

2018-03-02 00:00:00 1226 1

转载 13个Tensorflow实践案例,教你入门到进阶

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw关于深度学习,每个人都有自己的看法。有人说就是炼丹,得个准确率召回率什么的,拿到实际中,问问为什么,都答不上来。各种连代码都没写过的人,也纷纷表示这东西就是小孩堆积木,然后整个大功耗的服务器跑上几天,调调参数。然后每个实验室招生,都说自己是做什么深度学习,机器 学习,大数据分析的,以此来吸引学生。可是可是,他们实

2018-03-01 00:00:00 4353

转载 浅入浅出深度学习理论与实践

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw前言之前在知乎上看到这么一个问题:在实际业务里,在工作中有什么用得到深度学习的例子么?用到 GPU 了么?,回头看了一下自己写了这么多东西一直围绕着traditional machine learning,所以就有了一个整理出深度学习在我熟悉的风控、推荐、CRM等等这些领域的用法的想法。我想在这边篇文章浅入浅出的

2018-02-28 00:00:00 2036

转载 python使用AI实现识别暹罗与英短

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw先来上两张图看看那种猫是暹罗?那种猫是英短?第一张暹罗第二张英短 你以后是不是可以识别了暹罗和英短了?大概能,好像又不能。这是因为素材太少了,我们看这两张图能分别提取出来短特征太少了。那如果我们暹罗短放100张图,英短放100张图给大家参考,再给一张暹罗或者英短短照片是不是就能识别出来是那种猫了,即使不能完全认出

2018-02-27 00:00:00 718

转载 为什么“高大上”的算法工程师变成了数据民工?

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw算法与算法工程师在知乎里回答“做算法工程师是一种怎样的体验?”的答案(其中的思想并非原创,而是山寨自新加坡某大学一门Quantitative Investment课程的ppt)理想中的算法工程师:提出假设->收集数据->训练模型->解释结果。实际中的算法工程师:提出假设->收集数据->预处理->预处理->训练模型

2018-02-26 00:00:00 1382

转载 搜狐图文匹配算法大赛_方案分享

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw参加这次比赛的初衷是作为机器学习课程的大作业,这两天写了课程报告,所以将报告内容修改了一下进行分享。我所在的团队(“中国国家跳水队”,排名如队名,一度严重跳水)获得了初赛第3, 复赛第9, 决赛第6的成绩,正好擦边获得了三等奖。(小编:比赛的时候取个好名字有多重要:)主要分为三个部分,分别为比赛背景介绍,团队主要

2018-02-23 00:00:00 3625 1

转载 阿里电话面试(算法工程师)

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw 转眼间就到了找工作的阶段,这是我参加的第一个面试,无论结果如何我都受益匪浅。一. 面试起因        说起参加阿里巴巴这次内推过程挺有意思的,起因是我写了一篇关于知识图谱的文章:知识图谱相关会议之观后感分享与学习总结,然后有位大哥发私信给我,希望以后多交流并交换了联系方式。后来我们通过QQ成为来了好友,当看

2018-02-22 00:00:00 1772

转载 楼盘价格数据采集与可视化分析

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw本文代码在公众号 datadw 里 回复 楼盘  即可获取。本文就从数据采集、数据清洗、数据分析与可视化三部分来看看新的一年里房市的一些问题。数据采集:         数据采集即从网页上采集我们需要的指定信息,一般使用爬虫实现。当前开源的爬虫非常多,处于简便及学习的目的,在此使用python的urllib2库模

2018-02-18 00:00:00 3754 3

转载 TensorFlow和深度学习入门教程

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw前言上月导师在组会上交我们用tensorflow写深度学习和卷积神经网络,并把其PPT的参考学习资料给了我们, 这是codelabs上的教程:《TensorFlow and deep learning,without a PhD》 https://codelabs.developers.google.com/co

2018-02-16 00:00:00 1531

转载 如何训练一个性能不错的深度神经网络

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw本文主要介绍8种实现细节的技巧或tricks:数据增广、图像预处理、网络初始化、训练过程中的技巧、激活函数的选择、不同正则化方法、来自于数据的洞察、集成多个深度网络的方法。1. 数据增广       在不改变图像类别的情况下,增加数据量,能提高模型的泛化能力。      自然图像的数据增广方式包括很多,如常用的水

2018-02-14 00:00:00 4088

转载 CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)概念区分理解

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw1、相关知识从广义上来说,NN(或是更美的DNN)确实可以认为包含了CNN、RNN这些具体的变种形式。有很多人认为,它们并没有可比性,或是根本没必要放在一起比较。在实际应用中,所谓的深度神经网络DNN,往往融合了多种已知的结构,包括convolution layer 或是 LSTM 单元。其实,如果我们顺着神经网

2018-02-13 00:00:00 1536

转载 卷积网络循环网络结合-CNN+RNN

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw1. CNN+RNN相同点都是传统神经网络的扩展;前向计算产生结果,反向计算进行模型的更新;每层神经网络横向可以多个神经元共存,纵向可以有多层神经网络连接。不同点CNN进行空间扩展,神经元与特征卷积;RNN进行时间扩展,神经元与多个时间输出计算;RNN可以用于描述时间上连续状态的输出,有记忆功能;CNN则用于静态

2018-02-11 00:00:00 2399 1

转载 面试机器学习、大数据岗位时遇到的各种问题

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw自己的专业方向是机器学习、数据挖掘,就业意向是互联网行业与本专业相关的工作岗位。各个企业对这类岗位的命名可能有所不同,比如数据挖掘/自然语言处理/机器学习算法工程师,或简称算法工程师,还有的称为搜索/推荐算法工程师,甚至有的并入后台工程师的范畴,视岗位具体要求而定。机器学习、大数据相关岗位的职责自己参与面试的提供

2018-02-10 00:00:00 1339

转载 今日头条算法原理全曝光!(算法架构师详细解读,建议仔细看!)

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw今天,算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。今日头条的推荐算法,从2012年9月第一版开发运行至今,已经经过四次大的调整和修改。今日头条委托资深算法架构师曹欢欢博士,公开今日头条的算法原理,以期推动整个行业问诊算法、建言算法;通过让算法透明

2018-02-09 00:00:00 15400

转载 深度学习中训练参数的调节技巧

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw1、学习率步长的选择:你走的距离长短,越短当然不会错过,但是耗时间。步长的选择比较麻烦。步长越小,越容易得到局部最优化(到了比较大的山谷,就出不去了),而大了会全局最优重要性:学习率>正则值>dropout学习率:0.001,0.01,0.1,1,10  …….以10为阶数尝试小数据集上合适的参数大数据集上一般不

2018-02-08 00:00:00 2721

转载 RF(随机森林)、GBDT、XGBoost面试级整理

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw由于本文是基于面试整理,因此不会过多的关注公式和推导,如果希望详细了解算法内容,敬请期待后文。      RF、GBDT和XGBoost都属于集成学习(Ensemble Learning),集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。   根据个体学习器的生成方式,目前的集成

2018-02-07 00:00:00 6479

转载 算法工程师2017年学习,实习,秋招总结

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw最近一段时间就是忙完了秋招忙论文。然后就是忙着玩。拖到现在终于赶在2018年到来之前静下心来完成这篇分享。内容不止是面经,也包括这一年来为找工作而做的各种事情的总结。也许经历和心得跟大神们相比还差得远。但也希望对牛客的牛友们和学校里的师弟们有所帮助~ LZ背景           简单介绍一下个人情况。双普通98

2018-02-06 00:00:00 2256

转载 2018年机器学习&深度学习资料 全新汇总(不断更新),希望看到文章的朋友能够学到更多

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw注:机器学习资料篇目一共500条,篇目二开始更新本文提到链接 请查看原文  https://github.com/ty4z2008/Qix/blob/master/dl.md希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些资料

2018-02-05 00:00:00 4955

转载 百万英雄直播答题辅助系统,非OCR实现

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw本文代码在公众号 datadw 里 回复 百万英雄  即可获取。摘要看了网上很多的教程都是通过OCR识别的,这种方法的有优点在于通用性强。不同的答题活动都可以参加,但是缺点也明显,速度有限,并且如果通过调用第三方OCR,有次数限制。但是使用本教程提到的数据接口。我们能很容易的获取数据,速度快,但是接口是变化的,需

2018-02-01 00:00:00 848

转载 用Python调用百度OCR接口实例

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw本文主要针对Python开发者,描述百度文字识别接口服务的相关技术内容。OCR接口提供了自然场景下整图文字检测、定位、识别等功能。文字识别的结果可以用于翻译、搜索、验证码等代替用户输入的场景。支持Python版本:2.7.+ ,3.+首先安装接口模块,在电脑终端里执行 pip install baidu-aip

2018-01-30 00:00:00 12041

转载 算法工程师的面试难不难,如何准备?-图像处理/CV/ML/DL到HR面总结

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw把一些相关的知识点总结一下。这个比长,感兴趣的挑自己相关的那部分看。都是一些基础知识,面相关岗位问到的比较多。(回答时对算法要有一定的见解,最好不要照书上的背)  (一)            机器学习方面SVM  1、  支撑平面---和支持向量相交的平面;;;分割平面---支撑平面中间的平面(最优分类平面)2

2018-01-27 00:00:00 16367 2

转载 使用深度学习进行语言翻译:神经网络和seq2seq为何效果非凡?

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw我们都知道而且喜欢谷歌翻译(Google Translate),这个网站可以几乎实时地在 100 多种不同的人类语言之间互相翻译,就好像是一种魔法。谷歌翻译背后的技术被称为机器翻译(Machine Translation),它已经在通过帮助人们互相交流而改变了世界。但我们知道 15 年来,高中学生已经使用谷歌翻译

2018-01-26 00:00:00 4476

转载 500款各领域机器学习数据集,总有一个是你要找的

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw目录:金融交通商业推荐系统医疗健康图像数据视频数据音频数据自然语言处理社会数据处理后的科研和竞赛数据1金融美国劳工部统计局官方发布数据:http://dataju.cn/Dataju/web/datasetInstanceDetail/139沪深股票除权除息、配股增发全量数据,截止 2016.12.31 http

2018-01-25 00:00:00 1511

转载 除了写烂的手写数据分类,你会不会做自定义图像数据集的识别?!

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw本文代码、及测试图片在公众号 datadw 里 回复 图片分类  即可获取。网上看的很多教程都是几个常见的例子,从内置模块或在线download数据集,要么是iris,要么是MNIST手写识别数字,或是UCI ,数据集不需要自己准备,所以不关心如何读取数据、做数据预处理相关的内容,但是实际做项目的时候做数据预处理

2018-01-24 00:00:00 2826 1

转载 功能比Scrapy强,却使用最方便的Gerapy分布式爬虫管理框架

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw从 Scrapy 的部署、启动到监控、日志查看,我们只需要鼠标键盘点几下就可以完成,那岂不是美滋滋?更或者说,连 Scrapy 代码都可以帮你自动生成,那岂不是爽爆了?有需求就有动力,没错,Gerapy 就是为此而生的,GitHub:https://github.com/Gerapy/Gerapy。安装Gerap

2018-01-21 00:00:00 1804

转载 你看到的最直白清晰的,神经网络中的反向传播法讲解

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问

2018-01-20 00:00:00 841

转载 数据挖掘与人工智能学习进阶指南

据市场调研机构赛迪预计,2018年的人工智能市场将突破200亿元,更有专家预测,今年将是名副其实的人工智能元年。2017 年的AI技术已经汇聚了大量资本,在国务院出台的《新一代人工智能发展规划》中,人工智能核心产业规模计划在2030年超过1万亿元。随着 AI 技术的渗透,将会有越来越多的企业不得不重视人工智能带来的变革,据《人民日报海外版》报道,2017年中国人工智能人才缺口超过500万人。互联网

2018-01-19 00:00:00 1262

转载 深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadw1. CIFAR-10 & CIFAR-100    CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像。下载地址https://www.cs.toronto.edu/~kriz/cifar.html    (类别:airplane,automobile, b

2018-01-17 00:00:00 2675

转载 深度学习大神都推荐入门必须读完这9篇论文

向AI转型的程序员都关注了这个号???大数据挖掘DT数据分析  公众号: datadwIntroduction        卷积神经网络CNN,虽然它听起来就像是生物学、数学和计算机的奇怪混杂产物,但在近些年的机器视觉领域,它是最具影响力的创新结果。随着Alex Krizhevsky开始使用神经网络,将分类错误率由26%降到15%并赢得2012年度ImageNet竞赛(相当于机器视觉界的奥林

2018-01-16 00:00:00 58500 38

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除