数据挖掘
文章平均质量分 62
JLOGAN
你今天真好看
展开
-
机器学习,数据挖掘,人工智能,统计学的一点随笔
1.机器学习(ML):考察计算机如何基于数据来学习(或提高性能),也就是通过数据,得到目标函数f的近似g。可分为:监督学习(基本上就是分类),学习中的监督来自训练数据集中标记的实例;无监督学习(本质上就是聚类),输入实例没有类标记;半监督学习,学习模型时,使用标记和未标记的实例,标记的实例可用来学习类模型,未标记的实例可用来改进类边界;主动学习,可能要求用户对一个可能来自未标记的实例集或有学习程序原创 2016-01-20 15:23:04 · 2205 阅读 · 0 评论 -
大数据算法点滴一
大数据算法笔记 FROM 哈尔滨工业大学 大数据算法设计与分析 王宏志一、大数据问题1Byte=8bit,1KB=1024Bytes,1MB=1025KB,GB、TB、PB、EB、ZB、YB、BB、NB、DB4V特性:volume、variety、velocity、value,补充:对于web大数据还有virtuality求解步骤:问题--可计算否--计算可行否(资源、时间、数据量原创 2016-01-01 10:27:42 · 1660 阅读 · 0 评论 -
【转】R语言异常检测处理
看到一篇干货,感谢作者以及分享者,现与大家分享,转自http://youhaolin.blog.163.com/blog/static/224494120201422110628586/本文结合R语言,展示了异常检测的案例,主要内容如下:(1)单变量的异常检测(2)使用LOF(local outlier factor,局部异常因子)进行异常检测(3)通过聚类进行异常转载 2016-08-04 20:20:26 · 2002 阅读 · 0 评论 -
R语言随机森林初探
先介绍一下吧 在监督学习或者分类中,随机森林(RF)是一个非常好的分类学习算法。随机森林算法的实质是基于决策树的分类器集成算法,每一棵决策树给出一对实体的匹配决策,并根据所有的树的投票来得到最终决策。 基本思想:首先,通过自助法(bootstrap)重采样技术,从原始训练样本集N中有放回的重复随机抽取k个样本生成新的训练集样本集合,每个样本集合容量为k;其次,根据自助样本集生成k个决策树组成的原创 2016-10-23 20:04:09 · 7065 阅读 · 4 评论 -
R语言字符串相似度 stringdist包
R语言采用stringdist包计算字符串相似度原创 2016-10-19 14:32:10 · 6881 阅读 · 1 评论 -
R语言抓取广州租房信息
要去广州工作了,所以抓取了广州租房信息看一下,来源是某家广州租房网。网上爬虫代码很多,对于简单的网页实现起来也很简单,直接上核心代码: require(RCurl) ##载入包 require(XML) rm(list = ls()) GZsource <- data.frame() system.time(for (i in 1:100) { if(i==1){we原创 2016-10-31 21:28:14 · 842 阅读 · 0 评论 -
HDP HELLO WORLD案例
第一个HDP应用(物联网案例)摘要准备sandboxHadoop生态传输数据样本到HDFS使用Hive做ETLHive知识点创建ORC文件格式:验证查询数据Hive设置分析数据创建TRUCK_MILEAGE表抽样查询性能展示Tez创建AVG_MILEAGE表创建DRIVERMILEAGE表PIG创建Pig脚本spark使用ambari...翻译 2018-07-15 22:18:12 · 540 阅读 · 0 评论