自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Forever-守望

大数据、数据挖掘、算法

  • 博客(4)
  • 资源 (5)
  • 收藏
  • 关注

原创 房屋价格数据采集与分析

随着互联网的发展,可供分析的信息越来越多,利用互联网上的信息来对生活中的问题做一些简单的研究分析,变得越来越便利了。本文就从数据采集、数据清洗、数据分析与可视化三部分来看看新的一年里房市的一些问题。数据采集:         数据采集即从网页上采集我们需要的指定信息,一般使用爬虫实现。当前开源的爬虫非常多,处于简便及学习的目的,在此使用python的urllib2库模拟http访问网页,并Beau

2017-01-23 11:15:52 8394 27

原创 使用Spark集群进行ETL的架构介绍

什么是ETL:ETL(extract提取、transform转换、load加载)。ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘提供决策支持的数据。使用Spark开发ETL系统的优势:1、由于海量的日志记录、交易记录,单机进行ETL变得越来越困难。搭建一套具备大规模数据处理能力的E

2017-01-13 14:11:49 26799 7

原创 maven环境下使用java、scala混合开发spark应用

熟悉java的开发者在开发spark应用时,常常会遇到spark对java的接口文档不完善或者不提供对应的java接口的问题。这个时候,如果在java项目中能直接使用scala来开发spark应用,同时使用java来处理项目中的其它需求,将在一定程度上降低开发spark项目的难度。下面就来探索一下java、scala、spark、maven这一套开发环境要怎样来搭建。1、下载scala sdkht

2017-01-09 16:42:06 9371

原创 聊聊在线教育的推荐系统

今天不谈推荐系统架构,也不谈具体的推荐算法,仅从一个本人亲历过的推荐产品来讨论个性化推荐怎么做更友好一点的问题。 在线教育产品中主要存在着两大类的推荐需求,题目、视频等教育资源的推荐和 辅导老师的推荐,这两大类的推荐都是将平台上的资源与实际需求者进行匹配。下面主要讨论题目、视频等教育资源得推荐为例。实际上,推荐系统是用户与平台资源池进行交互的纽带,其为用户较小信息负载,将最合理的资源推荐给用户,进

2017-01-03 15:51:23 4400

朴素贝叶斯分类法

使用朴素贝叶斯方法实现的中文文本分类算法

2015-01-10

R软件语言入门教程

关于R语言比较基础全面的教程,R的语法、数据结构、常用函数都有介绍

2014-07-23

大数加法程序

大数加法程序 大数加法程序 大数加法程序 C,C++

2012-07-01

c++桌面时钟程序

利用c++和windows api开发了一个小型的桌面时钟重新换,欢迎下载

2012-06-26

定时关机程序

dev c++可以编译运行,代码优化的还不是很好哈

2012-05-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除