自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据与算法之美

用数据思维解决意想不到的问题!

  • 博客(38)
  • 收藏
  • 关注

转载 详解哈希表的查找

哈希表和哈希函数在记录的存储位置和它的关键字之间是建立一个确定的对应关系(映射函数),使每个关键字和一个存储位置能唯一对应。这个映射函数称为哈希函数,根据这个原则建立的表称为哈希表(Hash Table),也叫散列表。以上描述,如果通过数学形式来描述就是:若查找关键字为 key,则其值存放在 f(key) 的存储位置上。由此,不需比较便可直接取得所查记录。注:哈希查找与线性表查找和树表查找最大的区

2018-02-28 00:00:00 1871

转载 循环递归,相互结合,释放数据的价值

随着经济的发展,目前各行各业已经积累了海量的数据,并且还在持续增长,可是这些数据非常杂乱还占空间,因此,如何有效利用它们,达到资源不浪费也就成为了相关工作者的首要思考问题。此时,数据分析便应运而生。那么数据分析究竟是什么呢?其实,数据分析就是指用适当的统计分析方法对收集来的大量数据进行处理分析,提取有用信息并形成结论,从而对数据加以研究和概括的过程。也就是说,通过分析数据,我们将能获取一些有用信息

2018-02-28 00:00:00 2791

转载 不想再被鄙视?那就看进来! 一文搞懂 Python 2 字符编码

程序员都自视清高,觉得自己是创造者,经常鄙视不太懂技术的产品或者QA。可悲的是,程序员之间也相互鄙视,程序员的鄙视链流传甚广,作为一个Python程序员,自然最关心的是下面这幅图啦我们项目组一值使用Python2.7,虽然我们也知道Python3的诸多好处,也曾经蠢蠢欲动过,但由于各种历史原因,以及业务的压力,我们只可能继续使用Python2.7。更悲哀的是,我们组不是那么internationa

2018-02-26 00:00:00 317

转载 决策树算法及实现

在计算机科学中,树是一种很重要的数据结构,比如我们最为熟悉的二叉查找树(Binary Search Tree),红黑树(Red-Black Tree)等,通过引入树这种数据结构,我们可以很快地缩小问题规模,实现高效的查找。在监督学习中,面对样本中复杂多样的特征,选取什么样的策略可以实现较高的学习效率和较好的分类效果一直是科学家们探索的目标。那么,树这种结构到底可以如何用于机器学习中呢?我们先从一个

2018-02-24 00:00:00 4861

转载 程序员必知的 Python 陷阱与缺陷列表

我个人对陷阱的定义是这样的:代码看起来可以工作,但不是以你“想当然“”的方式。如果一段代码直接出错,抛出了异常,我不认为这是陷阱。比如,Python程序员应该都遇到过的“UnboundLocalError”, 示例:>>> a=1>>> def func():...     a+=1...     print a...>>> func()Traceback (most recent call la

2018-02-23 00:00:00 461

转载 一文读懂 HMM 模型和 Viterbi 算法

隐含马尔可夫模型(Hidden Markov Model)隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他名字命名的。隐含马尔可夫模型一直被认为是解决大多数自然语言处理问题最为快速、有效的方法。马尔可夫假设随机过程中各个状态St的概率分布,只与它的前一个状态St-1有关,即P(St|S1,S2,S3,…,St-1)

2018-02-22 00:00:00 1653

转载 10 种机器学习算法的要点(附 Python 和 R 代码)

前言谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注,但是这家公司真正的未来在于机器学习,一种让计算机更聪明、更个性化的技术。也许我们生活在人类历史上最关键的时期:从使用大型计算机,到个人电脑,再到现在的云计算。关键的不是过去发生了什么,而是将来会有什么发生。工具和技术的民主化,让像我这样的人对这个时期兴奋不已。计算的蓬勃发展也是一样。如今,作为一名数据科学家,用复杂的算法

2018-02-21 00:00:00 337

转载 Git 的 4 个阶段的撤销更改

虽然git诞生距今已有12年之久,网上各种关于git的介绍文章数不胜数,但是依然有很多人(包括我自己在内)对于它的功能不能完全掌握。以下的介绍只是基于我个人对于git的理解,并且可能生编硬造了一些不完全符合git说法的词语。目的只是为了让git通俗化,使初学者也能大概了解如何快速上手git。同时,下面所有讨论,我们都假设只使用一个分支,也就是主分支master的情况,虽然这种作法并不符合git规范

2018-02-20 00:00:00 220

转载 30 个实例详解 TOP 命令

Linux中的top命令显示系统上正在运行的进程。它是系统管理员最重要的工具之一。被广泛用于监视服务器的负载。在本篇中,我们会探索top命令的细节。top命令是一个交互命令。在运行top的时候还可以运行很多命令。我们也会探索这些命令。(译注:不同发行版的top命令在各种细节有不同,如果发现不同时,请读你的帮助手册和命令内的帮助。)1. Top 命令输出首先,让我们了解一下输出。top命令会显示系统

2018-02-19 00:00:00 607

转载 干货|机器学习零基础?不要怕,吴恩达课程笔记第三周!逻辑回归与正则

吴恩达Coursera机器学习课系列笔记课程笔记|吴恩达Coursera机器学习 Week1 笔记-机器学习基础干货|机器学习零基础?不要怕,吴恩达机器学习课程笔记2-多元线性回归1Logistic Regression1.1 Logistic Regression (Classification) Model之前对房价的预测,其预测结果是一个连续变量,属于回归模型(Linear regressi

2018-02-19 00:00:00 513

转载 干货|机器学习零基础?不要怕,吴恩达机器学习课程笔记2-多元线性回归

吴恩达Coursera机器学习课系列笔记课程笔记|吴恩达Coursera机器学习 Week1 笔记-机器学习基础1Linear Regression with Multiple Variables紧接上一篇的例子 – 房价预测。现在我们有更多的特征来预测房价了,“房间的数量”、“楼层”、“房龄”……说明一下接下来要用到的符号:训练集(部分)如下图所示:然后再用上一篇中说的gradient desc

2018-02-18 00:00:00 341

转载 按照演算,整个宇宙将会陷入无边的黑暗

导读:能量守恒定律告诉我们:能量既不会凭空产生,也不会凭空消失,它只会从一种形式转化为另一种形式,或者从一个物体转移到其它物体,而能量的总量保持不变。熵作为只增不减的物质,该怎么去理解它?通俗的理解熵:举个栗子,对于这样一堆沙子,我们可以随意的更改沙堆的“形状”,甚至可以组成数万亿种形状,但不管哪种形状,构成沙子的“结构”不会发生任何改变,从熵的意义上讲,这个沙堆的熵值很高(这里的沙堆泛指一切自然

2018-02-18 00:00:00 390

转载 用 Python 实现一个大数据搜索引擎

搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能,试图让大家理解大数据搜索的基本原理。布隆过滤器 (Bloom Filter)第一步我们先要实现一个布隆过滤器。布隆过滤器是大数据领域的一个常见算法,它的目的是过滤掉那些不是目标的元素。也就是说如果一个要搜索的词并不存在与我的数据中,那么它可以以很快

2018-02-17 00:00:00 1203

转载 荐书 | 攻克世纪难题,拒绝领取菲尔兹奖的孤独数学天才的一生

今天小木给大家介绍五本数学科普文,了解了一些数学家研究数学、证明猜想的经历,他们的专研精神简直让小木五体投地!这也验证了一句经典名言“念念不忘,必有回响”。希望我们都能把时间奉献给自己喜欢的事情上。下面,让我们一睹数学大家的风范~(PS:由于春节期间快递停运,下单后于2月26日开始发货。)01《庞加莱猜想:追寻宇宙的形状》[日] 春日真人 著内容简介 :2006年的菲尔兹奖颁奖仪式宣布,该奖授予证

2018-02-15 00:00:00 2253

转载 3 年工作经验程序员应有的技能

前言因为和同事有约定再加上LZ自己也喜欢做完一件事之后进行总结,因此有了这篇文章。这篇文章大部分内容都是面向整个程序员群体的,当然因为LZ本身是做Java开发的,因此有一部分内容也是专门面向咱们Java程序员的。第二阶段:五年五年又是区分程序员的第二个门槛。有些人在三年里,除了完成工作,在空余时间基本不会研究别的东西,这些人永远就是个Coder,年纪大一些势必被更年轻的人给顶替;有些人在三年里,除

2018-02-15 00:00:00 257

转载 你的专业 VS 你妈口中你的专业

亲妈认证★英语语言文学我妈:她就是一个学英语的~我同学:你学英语的啊?那你看美剧不用看字幕的吧?你听英文歌都听得懂的吧?这个怎么翻译啊?这上面写的什么?你不是专八吗?哈喽~ 在吗?你帮我翻译一段东西吧~ 一点点,而且不难。我的内心OS:神经病学我妈:他研究精神病人的我的内心OS:这是精神病!这也是神经病!他们是完全不一样的你们看不出来吗!!!!!地质学我妈:他挖煤的。我的内心OS:居然有人觉得我能

2018-02-14 00:00:00 399

转载 机器学习三部曲

随着科技的发展,计算机对人类的生产活动和社会活动产生了极为重要的影响,同时以强大的生命力飞速发展着。目前计算机正广泛用于社会各个领域,并朝着微型化、网络化、智能化和巨型化的方向前进。说到智能化,大家最先想到的应该就是阿尔法狗吧。没错,阿尔法狗作为第一个击败人类围棋冠军的人工智能程序,就是智能化计算机的表现,而它的主要工作原理就是深度学习。柯洁对战alphago那么,深度学习究竟是什么呢?它能做什么

2018-02-14 00:00:00 702 1

转载 Jupyter 常见可视化框架的选择

文末有福利!对于以Python作为技术栈的数据科学工作者,Jupyter是不得不提的数据报告工具。可能对于R社区而言,鼎鼎大名的ggplot2是常见的可视化框架,而大家对于Python,以及Jupyter为核心的交互式报告的可个视化方案就并没有那么熟悉。本文试图比较几个常用的解决方案,方便大家选择。选择标准称述式还是命令式数据工作者使用的图的类别,常见的就三类:GIS可视化、网络可视化和统计图。因

2018-02-13 00:00:00 1515

转载 如何通过自学找到一份开发的工作?

01学习过程比较仔细的学习了《c++primer》,并对每个习题都自己写代码实现了一遍,包括稍微复杂一点的例子。认真读完了《effective c++》,《effective stl》。比较仔细的学完了《数据结构与算法分析》,并把其中的每种数据结构和算法都用c++实现了一遍。包括各种线性表,树(二叉树、AVL树、RB树的各种操作),图(BFS、DFS、prim、kruskal、djkstra、fl

2018-02-12 00:00:00 703

转载 百度地图大数据告诉你一线城市真相

01 城市人口吸引力大PK!2017年度城市人口吸引力指数排名▼划重点:1、第三列里的省会城市南昌、长春、乌鲁木齐、兰州、海口、呼和浩特、西宁是对人口的吸引力较弱。2、第二列里的贵阳、沈阳、哈尔滨、石家庄、福州、合肥、南宁、昆明对人口的吸引力尚可。3、第一列的城市是未来应该重点关注的城市。2017年年度主要城市人口吸引力排行TOP10▼排名依次是深圳、广州、北京、上海、东莞、苏州、成都、重庆、杭州

2018-02-11 00:00:00 284

转载 据说这篇总结覆盖了一般Python开发面试中可能会问到的大部分问题

原文标题:一名python web后端开发工程师的面试总结先介绍下我的情况通信背景,工作一年多不到两年。之前一直在做C++的MFC软件界面开发工作。公司为某不景气的国企研究所。(喏,我的工作经验很水:1是方向不对;2是行业有偏差)。然后目前是在寻找python后端开发这一块的工作,使用的框架为django;之前一直通过CSDN以及其他几家技术博客/论坛吸收大家的经验,在感激之余,也想输出点什么,造

2018-02-10 00:00:00 400

转载 课程笔记|吴恩达Coursera机器学习 Week1 笔记-机器学习基础

11. Introduction1.1 Supervised Learning已知输入x以及其对应的标签y,求解 f:x→y回归 regression:输出的结果y是一个连续的变量 y=ℝ分类 classification:输出的结果y是一个离散的变量 y={1,2,3...,k}1.2 Unsupervised Learning已知输入x,并不知道其所属的类别标签y,求解将x们划分到不同的聚类中

2018-02-10 00:00:00 285

转载 详细解读给数据挖掘新手的6个案例

1946年2月16日,是一个值得纪念的日子。在这一天,人类历史上真正意义上的第一台电子计算机诞生了,此后计算机便随着科技的发展以强大的生命力飞速发展着。而作为用来定义计算机程序的形式语言——编程语言也紧跟计算机其后蓬勃发展,到目前为止,人类已发明了上千种不同的编程语言,同时每年还会有新的编程语言诞生。说到编程语言,大家最先想到的应该就是C,C++,Java等等。不过,超模君今天要介绍的是2017年

2018-02-09 00:00:00 29391 1

转载 商业项目中最受欢迎的 7 种编程语言

【导读】:Semaphore 是一个国外持续集成/持续部署方案服务商。Semaphore 称自己在过去三年对其开发者用户进行调查,调查他们在开发商业项目时一般都使用哪些语言。这些数据基于成千上万个在 Semaphore 上进行测试和部署的项目的人。所以现在这是迄今为止关于商业项目中最受欢迎的开源编程语言的全面报告。// 注:本文并非编程语言排行榜,忽略顺序 别问我们为什么没有 XXX 编程语言,这

2018-02-09 00:00:00 268

转载 中国癌症大数据出来了!每年126万例癌症死亡本可避免

01 中国本土大样本数据:癌症真的可预防!2017年,由全国肿瘤登记中心副主任陈万青教授、美国癌症协会Farhad Islami教授牵头的生活方式和感染对中国癌症发病和死亡影响的研究,发表在Annals of Oncology上[1,2]。该研究由美国癌症研究所、中国医学科学院肿瘤医院肿瘤研究所等八家机构联合参与,使用了2013年的全国肿瘤登记中心的肿瘤数据[3],结合2002年及2006年的中国

2018-02-08 00:00:00 354

转载 荐书 | 从启蒙到进阶,值得推荐的五本少儿编程

据小木对身边的人了解,好像码农们都有这么一个愿望:等我有孩子了,我一定教我的孩子学编程。玩游戏玩自己设计的才酷!看着一个个码农爸爸憧憬着美好的愿景,小木恨不得马上帮他们实现这个愿望。这不~在了解了许多本儿童编程书籍之后,精挑细选了5本推荐给大家。趁这个寒假,让孩子接触编程,挖掘孩子们编程的潜力吧~(PS:由于春节期间快递停运,年前发货时间截止2月12日。)01《Scratch少儿趣味编程1、2》[

2018-02-08 00:00:00 7511 1

转载 2018年大数据趋势

作者 | Keith D. Foote翻译 | 品觉笔记本电脑、智能手机、传感器,都为物联网带来了大量数据。这是获得竞争优势(或者保持竞争力)的重大机遇,前提是企业足够灵活,可以管理好数据并把数据变成有用的商业智能。人脑能高效地处理视觉图像。在这个过程中,大脑使用了潜意识,让决策者可以通过迅速扫描图像来处理信息。可视化图表利用了大脑的图像识别能力,出色的可视化模型将成为处理庞大数据集的更好选择,也

2018-02-07 00:00:00 1529

转载 全球100款大数据工具汇总(51~100款)

上篇(戳标题即可跳转):全球100款大数据工具汇总(前50款)51、Redis是一个高性能的key-value存储系统,和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)和zset(有序集合)。Redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用。 5

2018-02-06 00:00:00 701

转载 重磅!阿里开源AI核心技术,95%算法工程师受用

你是否曾有过这样的疑虑:人工智能大热,作为一名传统程序员,该如何转型或学习?网上AI教程、书籍,质量参差不齐,如何找到真正专业的资源?AI理论遍地皆是,但几乎都在纸上谈兵。我们该从哪里获得实战案例?近日,阿里正式推出业界首本深入阐述强化学习落地实践案例的书:《强化学习在阿里的技术演进与业务创新》,并史无前例开放,供所有技术人免费下载。冬日尚严寒,咱们就围炉煮酒,共同分享阿里带来的独特“知识年货”。

2018-02-06 00:00:00 585

转载 程序员上帝视角解读“旅行青蛙”,你的呱真的在旅行嘛?

来源:知乎作者:黄小秋原文链接:https://www.zhihu.com/question/68733553/answer/305463907导语:知乎有位程序员大佬,为了让老母亲老父亲们理解自己的呱究竟在干什么,于是花了五个晚上逆向游戏程序逻辑,提取各种数据。这里相当于动用了上帝视角来解答这些问题。目前点赞已经超过2w。大佬根据回答的内容,做了一个目录,方便大家按需食用。1、呱真的在旅行么?2

2018-02-05 00:00:00 744

转载 全球100款大数据工具汇总(前50款)

01  Talend Open Studio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次,其开源软件提供了数据整合功能。其用户包括美国国际集团(AIG)、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。02 DYSON探码科技自主研发的DYSON智能分析

2018-02-04 00:00:00 532

转载 为什么离开学校后,学习能力直线下降?

最近几年,人工智能浪潮层层推进,对各大科技公司产生巨大影响。百度推出Apollo无人车计划,阿里建立达摩院,腾讯成立的AI Lab虽布局较晚却也不甘人后。China+AI已是大势所趋,吸引的不仅是大公司,更有许多人工智能的爱好者。曾经只存在于科幻小说或实验室中遥不可及的人工智能产品也逐渐成为老百姓日常生活的一部分。而支撑人工智能技术迅速发展的核心技术之一就是机器学习。传统IT行业发展已臻成熟,这意

2018-02-04 00:00:00 962

转载 Coursera吴恩达《卷积神经网络》课程笔记(1)-- 卷积神经网络基础

推荐阅读时间:8min~15min主要内容:卷积神经网络《Convolutional Neural Networks》是Andrw Ng深度学习专项课程中的第四门课。这门课主要介绍卷积神经网络(CNN)的基本概念、模型和具体应用。该门课共有4周课时,所以我将分成4次笔记来总结,这是第一节笔记。1Computer Vision机器视觉(Computer Vision)是深度学习应用的主要方向之一。一

2018-02-03 00:00:00 391

转载 2017年终奖发放,程序员人均11776元排名第一!

又到了一年一度的“晒年终奖”时刻了!你敢晒一波吗?快过年了,又到了一年一度的年终奖盘点时间!此可谓扎心扎心再扎心!那么,你2017年的年终奖有多少?满意不?2017年全国白领人均年终奖7278元智联招聘24日发布《2017白领年终奖调查》,结果显示,2017年白领年终奖人均7278元,获得年终奖的人员占比大幅提高至七成。不少人表示对2017年的年终奖数目还是相对满意的,白领年终奖满意度达到3.32

2018-02-03 00:00:00 841

转载 用算法撩妹都不会,别跟我说你是程序员

程序员浪漫的表白方式可以说是花样百出,为什么用在自己身上就没效果呢?作为一个程序员“身边的女生”,小编觉得,大部分程序员没有女朋友,很可能是恋爱技能bug太多,当你还不确定那个女生对你的喜欢程度,就贸然出手表白,那么结局可能就是......所以表白前先要做功课,下面一位歪国小哥就教给我们一种方法:利用算法,确定一个姑娘对你是否有兴趣,看准了再出手,才不至于惨败公式和步骤:贝叶斯似然率理论公式:P(

2018-02-02 00:00:00 554

转载 数学从小学开始“梯次掉队”?别让课本的枯燥“浇灭”孩子对数学的兴趣

1、2、3、4、5……从孩子用手指数数开始,就与数学结下了不解之缘。进入幼儿园,在老师的指导下画出三角形,圆形等,这是数学中的几何。稍大一点,到商店里买东西,开始懂得买的东西是多还是少,是大还是小,指着东西说要上面还是下面,这是数学中的图形大小及位置关系。正式进入小学,天天与数学打交道,加减乘除运算,各种形状,还有简单的统计知识,这一切都是数学。可以说,数学改变了人的思维,开阔了人的视野。从幼儿园

2018-02-02 00:00:00 735

转载 数据之美,堪比好莱坞大片!

看完下面的几张图,你就知道自己有多无知了。堪称是好莱坞大片啊!1城市3D空间通过2D瓦片图层的3D化,能够在经度维度、量级、时间多个维度上真实还原城市3D空间。例子中为模拟的轨迹数据和旧金山食物供应商分布。2GPS轨迹分布以三种不同的方式描绘北京、杭州、贵阳三个城市出租车一天的轨迹数据。3设备故障预测通过结合阿里云流计算、设备故障预测算法、以及可视化,全景实时监测所有设备的运转状况与运检人员的工单

2018-02-01 00:00:00 701

转载 从概念到案例,机器学习应该掌握的20个知识点

随着科技的发展,计算机对人类的生产活动和社会活动产生了极为重要的影响,同时以强大的生命力飞速发展着。目前计算机正广泛用于社会各个领域,并朝着微型化、网络化、智能化和巨型化的方向前进。说到智能化,大家最先想到的应该就是阿尔法狗吧。没错,阿尔法狗作为第一个击败人类围棋冠军的人工智能程序,就是智能化计算机的表现,而它的主要工作原理就是深度学习。柯洁对战alphago那么,深度学习究竟是什么呢?它能做什么

2018-02-01 00:00:00 400

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除