当前搜索:

【机器学习PAI实践八】用机器学习算法评估学生考试成绩

(本文数据为实验用例)一、背景母亲是老师反而会对孩子的学习成绩造成不利影响?能上网的家庭,孩子通常能取得较好的成绩?影响孩子成绩的最大因素居然是母亲的学历?本文通过机器挖掘算法和中学真实的学生数据为您揭秘影响中学生学业的关键因素有哪些。本文的数据采集于某中学在校生的家庭背景数据以及在校行为数据。通...
阅读(2621) 评论(4)

十图详解TensorFlow数据读取机制(附代码)

在学习TensorFlow的过程中,有很多小伙伴反映读取数据这一块很难理解。确实这一块官方的教程比较简略,网上也找不到什么合适的学习材料。今天这篇文章就以图片的形式,用最简单的语言,为大家详细解释一下TensorFlow的数据读取机制,文章的最后还会给出实战代码以供参考。TensorFlow读取机...
阅读(3818) 评论(2)

五大机器学习微信公众号推荐

背景 机器学习是目前非常火热的领域,每天都有大量的机器学习相关的资讯产生。博主也是从事机器学习相关的工作,每天上下班在地铁上都喜欢通过相关微信公众号了解咨询,现在就为大家推荐几个我觉得比较不错的公众号,排名不分先后。 36大数据 36大数据以大数据实操性介绍为主的媒体,会有很多关于机器...
阅读(2631) 评论(0)

【机器学习PAI实践七】文本分析算法实现新闻自动分类

一、背景新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式,消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标,完全由机器智能化实现。本文通过PLDA算法挖掘文章的主题,通过主题权重的聚类,实现新闻自...
阅读(2330) 评论(0)

【干货】Kaggle 数据挖掘比赛经验分享(mark 专业的数据建模过程)

简介Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比...
阅读(2129) 评论(0)

【机器学习PAI实践六】金融贷款发放预测

一、背景很多农民因为缺乏资金,在每年耕种前会向相关机构申请贷款来购买种地需要的物资,等丰收之后偿还。农业贷款发放问题是一个典型的数据挖掘问题。贷款发放人通过往年的数据,包括贷款人的年收入、种植的作物种类、历史借贷信息等特征来构建经验模型,通过这个模型来预测受贷人的还款能力。 本文借助真实的农业贷...
阅读(3517) 评论(0)

【机器学习PAI实践五】机器学习眼中的《人民的名义》

一、背景 最近热播的反腐神剧“人民的名义”掀起来一波社会舆论的高潮,这部电视剧之所能得到广泛的关注,除了老戏骨们精湛的演技,整部剧出色的剧本也起到了关键的作用。笔者在平日追剧之余,也尝试通过机器学习算法对人民的名义的部分剧集文本内容进行了文本分析,希望从数据的角度得到一些输入。本文使用阿里云机器...
阅读(3116) 评论(2)

【机器学习PAI实践四】如何实现金融风控

(本文数据为虚构,仅供实验)一、背景本文将针对阿里云平台上图算法模块来进行实验。图算法一般被用来解决关系网状的业务场景。与常规的结构化数据不同,图算法需要把数据整理成首尾相连的关系图谱。图算法更多的是考虑边和点的概念。阿里云机器学习平台上提供了丰富的图算法组件,包括K-Core、最大联通子图、标签...
阅读(3250) 评论(0)

【机器学习PAI实践三】雾霾成因分析

产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2一、背景 如果要人们评选当今最受关注话题的top10榜单,雾霾一定能够入选。如今走在北京街头,随处可见带着厚厚口罩的人在埋头前行,雾霾天气不光影...
阅读(1693) 评论(0)

【机器学习PAI实践二】人口普查统计

产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2一、背景感谢大家关注玩转数据系列文章,我们希望通过在阿里云机器学习平台上提供demo数据并搭建相关的实验流程的方式来帮助大家学习如何通过算法来挖掘...
阅读(3023) 评论(1)

【机器学习PAI实践一】搭建心脏病预测案例

产品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2一、背景心脏病是人类健康的头号杀手。全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病。 所以,如果可以通过提取人体相关的体...
阅读(3439) 评论(10)

Google Java编程风格指南

作者:Hawstein出处:http://hawstein.com/posts/google-java-style.html声明:本文采用以下协议进行授权: 自由转载-非商用-非衍生-保持署名|Creative Commons BY-NC-ND 3.0 ,转载请注明作者及出处。目录前言源文件基础源...
阅读(1150) 评论(0)

PM九步法

多年以后,当我面对那些年青的产品经理,我会想起自己当年从事的是一份高薪的工作。那是2000年,我大学毕业后在北京一家IT网站做搜索引擎PM,当时我一个月的薪水能在亚运村买一平方米房子,十年之后,朋友招聘PM,开出的月薪和我十年前一样,差别是这时年青的PM用一年的薪水才能在亚运村买到一平方米的房子。...
阅读(1161) 评论(0)

【分布式计算】分布式日志导入工具-Flume

背景 Flume是Apache赞助的一个分布式日志管理系统,主要功能就是把集群中每个worker产生的日志log,collect到特定的地点。 为什么要写这篇文章呢,因为现在搜索出来的文献大多是老版本的flume,在flume1.X版本后,也就是flume-ng版本跟之前出现了很大的改动,市面...
阅读(1483) 评论(4)

高效MacBook工作环境配置

1. 硬件提升笔记本电脑的特点是携带方便,缺点是屏幕太小,因此你首先需要再申请领用一个外接显示器,多一个屏幕会大大减少你切换应用程序的次数,显著提升你的工作效率,别忘了同时申请一个Mini DP转VGA的转接头用于连接显示器。为了配合多显示器,后面会推荐一个软件来管理多显示器窗口。如果你资金宽裕,...
阅读(2455) 评论(0)

【LeetCode从零单排】No.135Candy(双向动态规划)

1.题目There are N children standing in a line. Each child is assigned a rating value.You are giving candies to these children subjected to the followin...
阅读(1532) 评论(1)

机器学习常见算法分类汇总

机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家介绍,第一...
阅读(1823) 评论(0)

大型文件去重

1.背景面试的时候经常会被问到一个问题,大型的文件该如何去重。写一个python脚本是效率很差的策略。这里讲下如何用shell实现。2.流程(1)文件切割用split函数对于文件切割。split -l 10000 test.txt-l是按照行切割,10000是每10000行切割成一份文件。切割完会...
阅读(2183) 评论(0)

【分布式计算】DFS && BigTable

1.背景分布式计算的发迹应该是google在2003年发表的三篇paper,分别是GFS、MapReduce、BigTable。其中MapReduce大家都很熟悉了,不懂的同学也可以看看我之前写的文章【分布式计算】MapReduce的替代者-Parameter Server为什么google会搞分...
阅读(1534) 评论(0)

unittest单元测试

1.背景 到了公司发现,ut(单元测试)是非常重要的一部分,ut并不是完全是测试的同学完成,很多时候ut是需要开发的同学自己来做。研究了下python脚本下unittest包的用法。使用的时候要import unittest包,函数的传入参数unittest.TestCase,主要结构包括:set...
阅读(1825) 评论(0)
    统计

    主要讲述算法和业务的结合,适合初学者

    机器学习实践应用

    京东地址

    作者公众号:凡人机器学习

    凡人机器学习

    个人资料
    专栏达人 持之以恒
    等级:
    访问量: 89万+
    积分: 1万+
    排名: 1616
    博客专栏