我就是喜欢我话多-CSDN博客

原创 Python+Selenium初入殿堂

码字不易，转发请注明出处：前言近期接到编写一个自动化测试web项目的脚本任务，由于需要兼容IE，因此只能选择Selenium咯，本篇博客意在记录，备忘，若有不足或错误，还望指出。依赖首先需要下载Selenium，使用pipy很简单的就能下载下来。接下来是兼容几个浏览器的驱动，这里我只使用IE，因此只下载了Ie的驱动：这些依赖很容易就能下到了。多用心百度下。使用1.打开浏览器并跳转页面：fro

2016-12-09 14:40:42 671 2

原创 Storm简单使用——一举入门

主体刚开始学习Storm发现这个流式处理框架还是比较容易理解与使用的。也许是我刚开始学习吧。这篇博客可能没有太多干货，只是记录下来供自己以后翻看。整个Storm程序可分为几个部分：spout：作为Storm的开始模块。bolt：作为每一个任务的处理模块。spout作为Storm的开始，spout负责读取数据并不断地给bolt以供处理。因此spout的两个核心方法便是：open()——用于读

2016-10-24 15:27:57 3231

废话板块做大数据怎么没有数据呢？对于我们，数据的来源便是爬虫。其实博主之前自己基于HTTP协议写过一个小的爬虫。所以更加明白要处理去重，解析页面。解决各种各样的小麻烦，和触发js，跳过防爬虫机制是有多么的令人闹心。所幸。有一群无私的人创造了WebCollector Java 爬虫，将这些问题的大部分全部解决。并且十分的利于二次开发。十分感谢他们的付出。这是他们的网站：WebCollector教程。废

2016-08-24 15:18:24 2776

原创 Scala学习日志（三）——轻便神奇的for推导式

前言原本，在撰写本篇文章之前应该先详细列举一下scala的函数式编程，以及其中的map，flatMap，filter以及reduce等等高级函数。但是转念一想。由于高级函数的写法十分简洁。对没有深入了解的朋友可读性并不高，与其令各位朋友看得云里雾里。不如先从for推导式出发。有了这种思想。以便之后的高级函数的理解与运用。何为for推导式scala中的for与Java中不同。它拥有比Java中更加强大

2016-08-10 16:19:43 2289

原创 R语言入门之创建数据集——向量、矩阵、数组、数据框和列表

摘要随着大数据的火爆发展，适合数据分析及生成图表的R语言也在“最受欢迎的编程语言”中上升到了17位。R语言的种种特性令其十分易于进行数据分析，并因其能通过简短的代码生成一目了然的图令众多数据分析师垂涎三尺。进行数据分析的第一步是先拿到数据，本文就简单描述一下R语言的各种数据集——向量、矩阵、数组、数据框和列表的创建及使用。向量向量是用于存储数值型、字符型或逻辑型数据的一维数组。执行组合功能的函数c(

2016-08-03 09:57:06 60225

原创 Scala学习日志（1.5）——自适应类型

码字不易，转发请注明出处：http://blog.csdn.net/qq_28945021/article/details/52087381自适应类型在使用scala开发时。程序员们会惊喜的发现在大多数情况下他们再也无需提供冗余的类型信息。这可以节省很多的开发成本。而能令程序员有这点便捷。归功于Scala优秀类型推演。在使用scala时，我们可以很轻松的写下如下代码。val one :Int= 1

2016-08-01 17:11:22 1256

原创 Scala学习日志（二）——深入模式匹配（一）

码字不易，转发请注明出处：http://blog.csdn.net/qq_28945021/article/details/51980338摘要Scala模式匹配咋一看和Java中的Switch语句很相似，然而在Java中，只能匹配简单的数据类型和表达式。Scala模式匹配则更加强大：可以使用类型、通配符、序列、正则表达式。甚至可以深入获取对象的状态。本文主要以代码的形式，由简到繁的深入Scala模

2016-07-21 17:02:21 2311

原创 Scala学习日志——一切从使用开始

摘要Scala，被称为可伸展的语言。由于其的完全面向对象性却又融合函数式编程，使其代码十分优美，简洁。他可以用寥寥几行就完成在Java中大量代码才能完成的操作。且简单易懂，有效的增强代码的可读性，并减少出错的可能。由于近年来大数据方便Spark一片大好，可以说学大数据必须要学Spark。而总所周知的，Spark的底层是由Scala进行编写的，因此Spark对Scala的适应性是十分好的。因此学习Sp

2016-07-20 17:05:20 3571

原创算法积累——K均值聚类（Kmeans）

摘要MLlib（机器学习）分两种——监督学习，无监督学习。首先监督学习，类似普贝叶斯这样的分类算法。要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。显而眼见的是，这种需求另监督学习有很大的局限性，尤其在海量数据处理时。要预先处理数据以满足算法需求得耗费大量资源与时间。此时，可以使用聚类算法这样的无监督学习，相比于分类，聚类不依赖预定义的类和类标号的训练实例。本文将聚类算

2016-07-19 22:46:28 6042 1

原创用Java理解Spark算子之Transformation算子

前言RDD算子分类，大致可以分为两类，即： Transformation：转换算子，这类转换并不触发提交作业，完成作业中间过程处理。 Action：行动算子，这类算子会触发SparkContext提交Job作业。因为Action算子比较容易理解，所以这里只解析Transformation算子。其实Transformation算子的解析在网上有很多资源，但是大多都是用scala语言写的例子，这

2016-06-07 07:53:31 5047 1

原创 spark1.6.1及scala2.11.8安装配置

首先，安装spark之前需要安装配置的软件有：JDK，Scala,ssh,Hadoop这些开发平台的安装配置在我之前的博客中都有详细的攻略，需要的请去看看。 hadoop安装配置再此提一句，无论是hadoop，hbase，hive，spark都是需要版本适配的，不然就会多很多步的不必要操作，版本的适配官网上都有，这里写者是使用：jdk1.7+hadoop2.6.4+scala2.11.8+spar

2016-05-31 21:05:28 1960

原创 HIVE简单API使用

近期在学习HIVE，发现网上的代码都是很早以前的版本，我是使用1.1.1版本的hive。根本没法用，也有很多冲突。不过查阅官网，分析包结构，最后还是弄完了。直接把代码帖上来吧。package com.yc.hive;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import

2016-05-27 20:27:54 990

原创深入Java集合类

最近想吧Java的底层爬得深一些，一方面是为了在日后使用的时候能够选择最合适的方法，二来也是为了能对Java有更加深厚的理解。在研究的过程中，会将所研究得成果写成博客记录起来，也是对自己的学习进行总结。已经有了提纲。接下来需要做的就是循序渐进了。首先说下Java的集合：比较常用的集合我整理成了xmind。如下图：其中Collection 表示一组对象，这些对象也称为 collection

2016-05-21 23:18:52 470

原创 hadoop错误总结

在尝试使用hbase中的数据作为MR（MapReduce）的输入源的时候，遇到了一个看似莫名其妙的问题！这是我的源码package com.yc.hbase.mapreduce;import java.io.IOException;import java.util.Arrays;import java.util.Date;import java.util.List;import org.a

2016-05-17 21:17:10 2400 3

原创 HBase实战

一、包的依赖包的话用maven就很方便的下载了<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.1.2</version> <scope>runtime</sc

2016-05-13 22:16:26 1745 1

原创 Hadoop学习之自己动手做搜索引擎【网络爬虫+倒排索引+中文分词】

一、使用技术Http协议正则表达式队列模式Lucenne中文分词MapReduce二、网络爬虫项目目的通过制定url爬取界面源码，通过正则表达式匹配出其中所需的资源（这里是爬取csdn博客url及博客名），将爬到的资源存入文件中便于制作成倒排索引。根据页面源码垂直爬取csdn网站中的所有博客资源（找到一个超链接就爬取该超链接中的内容）。设计思想建立一个队列对象，首先将传入

2016-05-12 21:16:49 7129 5

原创 MapReduce实战【单表关联】

一、需求描述：从给出的child-parent文本中通过计算输出grandchild-grandparend 例：源文件：child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry Jes

2016-05-06 00:46:49 951

原创 Hadoop实战【二、MapReduce+自定义数据类型】

一、合久必分——MapReduceHDFS是hadoop的云存储，而MapReduce即是hadoop云计算。MapReduce采用”分而治之“的思想，把对大规模数据集的操作，分发给一个主节点管理下的各分节点共同完成，然后通过整合各分节点的中间结果，得到最终的结果。Map阶段：MapReduce框架将任务的输入数据分割成固定大小的片段（splits），随后将每个spli

2016-05-03 21:36:51 715

原创 Hadoop实战【一、HDFS】

HDFS——不怕故障的海量存储HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)，作为Hadoop的核心技术之一，是分布式计算中数据存储管理的基础。他所具有的高容易、高可靠性、高可扩展性，高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储。1、HDFS体系结构HDFS是一个主/从（Master/Slave）体系结构，它既像传统的文件系统一样，可以

2016-05-03 21:29:13 818

原创 Unbuntu下Hadoop伪分布式环境搭配

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。H

2016-04-21 05:33:30 920

原创 Redis学习日志【三、jedis+struts2】

Redis学习日志【三、jedis+struts2】上次熟悉了jedis的使用，接下来慢慢的将struts2，spring框架加上去，更加熟练使用。这次我们写一个简单的用redis实现的点赞功能。用redis实现点赞并非只是因为点赞好做。而是点赞这种操作简单，但是高并发严重的操作，如果是关系型数据库。很容易导致数据库奔溃，而这正好突出了nosql的优势，由于是在缓存中操作，能高速且安全的操作。首先，

2016-04-15 17:07:45 1854 2

原创 redis学习日志【二、redis+jedis】

现今redis是大体上有3种基于java语言的客户端开发包：JredisJedisRedis4J其中Jedis是官方唯一提供的java语言客户端开发包，且应该是应用最为广泛的。那便开始实战吧。一、包的准备。我使用的是jedis-2.8.0.jar包下载地址：点击这里二、实战1.Hello word仅需短短几段代码：public static void main(String[] arg

2016-04-14 16:50:58 942

原创 redis学习日志【一、安装】

redis，一种Nosql数据库。Nosql的出现意在解决关系型数据库的诸如：大量数据写入时的耗时长，字段不固定时操作麻烦，难以快速返回简单查询的结果等缺陷而应运而生的。而虽然Nosql能解决关系型数据的一系列缺陷。然而并不是“No sql”，而是“Not only sql”，Nosql本身由于设计的原因并不能满足某些情景,例如其不能进行事务处理，不能进行join复杂查询等。所以，该用关系型

2016-04-11 16:06:35 2882

原创 VMware Tools for linux安装

想必很多人都是用虚拟机玩linux或者Ubuntu。那VM Tools实现主机与虚拟机间自由拖拽的功能之方便肯定人人都需要。博主就是为了玩转Ubuntu，去研究了VM TOOLS的安装。那么我们开始。一、首先找到VMware Workstation中设置虚拟机。

2016-04-11 15:09:14 4555

WRM的博客