2015年12月_Star先生

12月 11月 10月 09月 08月 07月 04月

原创一个用Python编写的股票数据（沪深）爬虫和选股策略测试框架

一个股票数据（沪深）爬虫和选股策略测试框架，数据基于雅虎YQL和新浪财经。根据选定的日期范围抓取所有沪深两市股票的行情数据。根据指定的选股策略和指定的日期进行选股测试。计算选股测试实际结果（包括与沪深300指数比较）。保存数据到JSON文件、CSV文件。支持使用表达式定义选股策略。支持多线程处理。代码main.pyfrom stockholm import Stockholmimpo

2015-12-26 23:18:16 54316 35

原创 eclipse上运行spark程序

最近在学spark，尝试在Windows+Eclipse运行程序，现在分享给大家首先，你得把你要处理的文件上传带HDFS,怎么上传文件网上都有教程，此处不再赘述。

2015-12-23 21:37:43 8338

原创 Java实现高斯模糊算法处理图像

高斯模糊（英语：Gaussian Blur），也叫高斯平滑，是在Adobe Photoshop、GIMP以及Paint.NET等图像处理软件中广泛使用的处理效果，通常用它来减少图像噪声以及降低细节层次。简介高斯模糊（Gaussian Blur）是美国Adobe图像软件公司开发的一个图像处理软件:Adobe Photoshop(系列)中的一个滤镜，具体的位置在：滤镜—模糊——高斯模糊！高斯模糊的原

2015-12-21 21:53:11 13626 15

原创 Hadoop环境共享

虚拟机镜像链接1.下载解压后直接用VMVare打开（有点大，7个多G)2.虚拟机登录密码为liu

2015-12-14 09:48:05 1333

原创 TFS(Taobao File System)安装办法

TFS（Taobao File System）是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统，主要针对海量的非结构化数据，它构筑在普通的Linux机器集群上，可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储，通常文件大小不超过1M，满足了淘宝对小文件存储的需求，被广泛地应用在淘宝各项应用中。它采用了HA架构和平滑扩容，保证了整个文件系统的可用性和扩展性。同时扁

2015-12-09 11:46:40 6130 2

原创 Hadoop的HA机制

NameNode是HDFS集群的单点故障，每一个集群只有一个NameNode，如果这个机器或进程不可用，整个集群就无法使用，直到重启NameNode或者新启动一个NameNode节点影响HDFS集群不可用主要包括以下两种情况类似机器宕机这样的意外情况将导致集群不可用，只有重启NameNode之后才可使用计划内的软件或硬件升级，将导致集群在短时间范围内不可用。HDFS的高可用性(HA)就可以

2015-12-06 08:52:59 7317 2

原创从源码中分析Hadoop的RPC机制

RPC是Remote Procedure Call（远程过程调用）的简称，这一机制都要面对两个问题对象调用方式；序列/反序列化机制在此之前，我们有必要了解什么是架构层次的协议。通俗一点说，就是我把某些接口和接口中的方法称为协议，客户端和服务端只要实现这些接口中的方法就可以进行通信了，从这个角度来说，架构层次协议的说法就可以成立了。

2015-12-04 13:50:19 2532

原创一个完整的MapReduce程序

最近初学Hadoop，仿照参考书上编写了一个wordcount程序，本文主要解决运行过程中出现的一些问题，下边先看一下这个项目。项目结构 WordMapper类package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWrita

2015-12-01 14:18:52 7491

用户心跳数据集

1.txt记录的是某一个用户的心跳周期数据，每一个数值表示一次心跳的周期，单位是秒。例如，0.8表示用户当时的心跳间隙是0.8秒。心跳间期按照顺序存储

2015-11-27

手机电脑之间完美连接

电脑与智能手机之间的完美连接，适合做演示

2013-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人