数据建模&数据挖掘
Bentley-2012
本人曾就职某市电信与电信研究院从事大数据挖掘方向工作,目前就职于某高校,从事数据建模挖掘及物联网教学培训工作,主要研究方向有:大数据建模与挖掘、数据库技术、物联网工程、计算机/通信专业。
展开
-
数据挖掘一些面试题总结(Data Mining)
Data-Mining试题2011Alibaba数据分析师(实习)试题解析一、异常值是指什么?请列举1种识别连续型变量异常值的方法?异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。Grubbs’ test(是以Frank E.Grubbs命名的),又叫maximumnormed原创 2012-07-14 11:35:19 · 26396 阅读 · 1 评论 -
Python数据挖掘-Python with hadoop
一、SnakeBite1.1 Snakebite介绍介绍:Snakebite由Spotify创建,需要python2 (python3版本目前并不支持) and python-protobuf 2.4.1或更高版本。Snakebite提供了一个Python客户端库,允许客户从Python应用程序中以编程方式访问HDFS。客户端库使用protobuf与NameNode直接通信的消息。snakebit...原创 2018-02-20 15:16:24 · 3844 阅读 · 1 评论 -
Python数据挖掘-支持向量机SVM
本文章内容来自麦子学院课程-机器学习,特此申明。Part One:线性可分的SVM1. SVM 背景 1.1 最早是由Vladimir N. Vapnik 和 Alexey Ya. Chervonenkis 在1963年提出 1.2 目前的版本(soft margin)是由Corinna Cortes 和 Vapnik在1993年提出,并在1995年发表 1.3 深度学习...原创 2018-02-14 11:33:36 · 2612 阅读 · 1 评论 -
hadoop完全分布式集群+Win Eclipse+Hbase+Hive+Zookeeper+Sqoop+SPARK试验机平台
三台Centos6.5虚拟机,模拟3个物理节点的Hadoop平台。并配置Eclipse连接原创 2015-11-12 00:30:53 · 2509 阅读 · 0 评论 -
MapReduce编程学习(1)--简要分析并附源代码
在完成了完全分布式Hadoop平台的搭建之后,一直在忙于C语言与计算机应用基础两门课程的教学与考试,好容易放了寒假,前几天在忙于LAMP与Oracle两门课程的教学备课。备课,永远是一名教师的无奈。顿时发现除了长了几斤肉肉之外,学习进展是一无是处。呵呵,也是醉了。抽了三个多小时把MapReduce编程的理念学习了一下,感觉相对来说还算好学,因为模板固定,以下记录几个实例供参考吧。在此申请:部分案例原创 2016-02-20 18:45:53 · 1004 阅读 · 0 评论 -
SPSS Modeller破解版安装
谢谢大家的莅临!!首先要下载IBM SPSS Modeler 14.1文件及注册文件(破解补丁lservrc),已上传至我的百度网盘,有需要可以下载。http://pan.baidu.com/s/1zS3yI 1.下载完IBM SPSS Modeler14.1后,双击“IBM SPSSModeler 14.1”开始安装。2. 安装中3. 点击转载 2014-03-18 17:37:44 · 15007 阅读 · 8 评论 -
Linux环境下搭建R计算平台
R语言已经广泛地应用于数据分析与文本挖掘,Facebook与Google的挖掘工具都是R语言,它较之于S-Plus与SAS具有开源等优势,具能布置于云平台下进行计算工作。与Matlab等一样,R语言也是从Linux下向Windows发展,但由于许多的R语言程序包只能在Linux下才能用,今天我特意在个人的电脑上搭建了VMware虚拟机下的Fedora14系统,进行实验。Step1:VMware原创 2012-08-16 20:04:08 · 4008 阅读 · 1 评论 -
移动互联网用户网络行为挖掘论文三则
6月又是一个离校的季节,研究生三年转瞬即过。感觉自己都没学到什么东西,或者是学到点皮毛东西也给忘了。现在想想能留下来的东西真是少之又少。就把自己的三篇论文全部在这里做一个备份交待吧,虽然水得很。一直以为自己在这方向能走得更远的,但却暂停了下来,因为自己工作签约某一线城市的运营商了(表示伤不起),但对用户的网络行为的Web挖掘方向的研究却一起颇有兴趣(虽然学术科研能力不强),殷切希望论坛或博客里有相原创 2013-06-11 19:18:30 · 2096 阅读 · 0 评论 -
某公司数据挖掘笔试题
一、 简述对大数据分析和挖掘的理解答:全球大数据时代(Age of big data)已然来临,尤其在电信、金融、电子商务、智能搜索引擎等行业,几乎已经到了“数据本来就是业务”的地步。在包括语音、计算机网络、因特网和各种其它方式的通信计算融合的电信业,大数据分析与挖掘是电信运营商的一大挑战,更是指引业务发展与改进的一大机遇。以下从这两方面加以阐述。挑战:1、数据量大且内容多样,海量数据原创 2012-11-25 11:04:24 · 2418 阅读 · 0 评论 -
Google和facebook如何应用R进行数据挖掘
投稿人/作者: http://www.chinakdd.com/article-2455MSh71C75413.html 发布时间:2012-04-25 20:40:12 投稿到ChinaKDD在R用户组织的主题为“R与预测分析科学”的panel会议上,有来自工业界的四位代表发表了讲话,介绍各自在工业界是如何应用R进行数据挖掘。他们分别是:Bo Cowgill, Goog转载 2012-07-16 14:43:00 · 2332 阅读 · 0 评论 -
2011百度与Alibaba数据挖掘实习生笔试面试题
Baidu数据挖掘笔试题:一、简答题30分1. extern”C”{}的作用好应用场景;2.写出两者你熟悉的设计模式,及应用场景,可以给出伪代码;3.TCP中time_wait是表示那种状态,及应用场景,以及起好处和坏处;二、算法题40分1. 有一个任务执行机,任务数N但是任务之间没有循环依赖,请给出适当的任务执行顺序。算法、伪代码,并分析其时间复杂度和空间原创 2012-07-16 14:40:12 · 2216 阅读 · 0 评论 -
史上代码最少的协同过滤推荐引擎(R语言实现)
R实现的item-based CF推荐算法:除去注释,有效代码只有16行。其中大量运用了向量化的函数与处理方式,所以没有任何的显式循环结构,关于向量化更详细的叙述可看这里。注:该代码实现的只是最基本算法,仅作参考,不承诺在大规模与复杂数据环境下的实用性。源数据文件data.dat的内容如下所列:user_id,subject_id1,11,31,71,1翻译 2012-07-16 13:52:01 · 5120 阅读 · 0 评论 -
我的数据挖掘之路
转载地址:http://www.chinakdd.com/article-C7Vdmy3NO8B5p13.html由于本科专业是生物信息(可以理解为生物统计学或者与基因数据相关的数据挖掘学科), 所以那时已经开始接触数据挖掘,对统计也算有一定的基础。记得大二的时候,我便开始学用 matlab,然后玩弄SVM,神经网络之类的机器学习算法做一些分析和实验。现在想想那时候可能连这些算法的基本概念都不转载 2012-07-15 00:04:57 · 2163 阅读 · 0 评论 -
Python数据挖掘-NLTK文本分析+jieba中文文本挖掘
一、NLTK介绍及安装1.1 NLTK安装NLTK的全称是natural language toolkit,是一套基于python的自然语言处理工具集。nltk的安装十分便捷,只需要pip就可以。相对Python2版本来说,NLTK更支持Python3版本。pip install nltk在nltk中集成了语料与模型等的包管理器,通过在python解释器中执行>>> import...原创 2018-02-21 00:16:23 · 32628 阅读 · 2 评论