- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 一个用Python编写的股票数据(沪深)爬虫和选股策略测试框架
一个股票数据(沪深)爬虫和选股策略测试框架,数据基于雅虎YQL和新浪财经。根据选定的日期范围抓取所有沪深两市股票的行情数据。根据指定的选股策略和指定的日期进行选股测试。计算选股测试实际结果(包括与沪深300指数比较)。保存数据到JSON文件、CSV文件。支持使用表达式定义选股策略。支持多线程处理。代码main.pyfrom stockholm import Stockholmimpo
2015-12-26 23:18:16 54316 35
原创 eclipse上运行spark程序
最近在学spark,尝试在Windows+Eclipse运行程序,现在分享给大家 首先,你得把你要处理的文件上传带HDFS,怎么上传文件网上都有教程,此处不再赘述。
2015-12-23 21:37:43 8338
原创 Java实现高斯模糊算法处理图像
高斯模糊(英语:Gaussian Blur),也叫高斯平滑,是在Adobe Photoshop、GIMP以及Paint.NET等图像处理软件中广泛使用的处理效果,通常用它来减少图像噪声以及降低细节层次。 简介高斯模糊(Gaussian Blur)是美国Adobe图像软件公司开发的一个图像处理软件:Adobe Photoshop(系列)中的一个滤镜,具体的位置在:滤镜—模糊——高斯模糊!高斯模糊的原
2015-12-21 21:53:11 13626 15
原创 TFS(Taobao File System)安装办法
TFS(Taobao File System)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器 集群上,可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对小文件存储的需求,被广泛地应用 在淘宝各项应用中。它采用了HA架构和平滑扩容,保证了整个文件系统的可用性和扩展性。同时扁
2015-12-09 11:46:40 6130 2
原创 Hadoop的HA机制
NameNode是HDFS集群的单点故障,每一个集群只有一个NameNode,如果这个机器或进程不可用,整个集群就无法使用,直到重启NameNode或者新启动一个NameNode节点 影响HDFS集群不可用主要包括以下两种情况类似机器宕机这样的意外情况将导致集群不可用,只有重启NameNode之后才可使用计划内的软件或硬件升级,将导致集群在短时间范围内不可用。HDFS的高可用性(HA)就可以
2015-12-06 08:52:59 7317 2
原创 从源码中分析Hadoop的RPC机制
RPC是Remote Procedure Call(远程过程调用)的简称,这一机制都要面对两个问题 对象调用方式;序列/反序列化机制在此之前,我们有必要了解什么是架构层次的协议。通俗一点说,就是我把某些接口和接口中的方法称为协议,客户端和服务端只要实现这些接口中的方法就可以进行通信了,从这个角度来说,架构层次协议的说法就可以成立了。
2015-12-04 13:50:19 2532
原创 一个完整的MapReduce程序
最近初学Hadoop,仿照参考书上编写了一个wordcount程序,本文主要解决运行过程中出现的一些问题,下边先看一下这个项目。 项目结构 WordMapper类package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWrita
2015-12-01 14:18:52 7491
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人