2016年05月_数据文字工作者

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Java中字符串和日志之间的相互转换

将日期时间转换为字符串：SimpleDateFormat sdf = new SimpleDateFormat( "yyyy-MM-dd HH:mm:ss" );String str = sdf.format(new Date());System.out.println(str);将字符串转换为日期时间：SimpleDateFormat sdf = ne

2016-05-25 19:00:16 1200

转载 Python爬虫和情感分析简介

摘要这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验，并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果。不同于其他专注爬虫技术的介绍，这里首先阐述爬取网络数据动机，接着以豆瓣影评为例介绍文本数据的爬取，最后使用文本分类的技术以一种机器学习的方式进行情感分析。由于内容覆盖面巨大，无法详细道尽，这篇文章旨在给那些对相关领域只有少量或者没有接触的人一个认知的窗口，希

2016-05-24 09:29:46 4357

转载 Hive on Spark入门设置

http://www.aboutyun.com/thread-18547-1-1.html先说明一下，这里说的Hive on Spark是Hive跑在Spark上，用的是Spark执行引擎，而不是MapReduce，和Hive on Tez的道理一样。　　从Hive 1.1版本开始，Hive on Spark已经成为Hive代码的一部分了，并且在spark分支上面，可以看这里https

2016-05-24 09:17:31 4551 3

转载为 Mahout 增加聚类评估功能

聚类算法及聚类评估 Silhouette 简介聚类算法简介聚类（clustering）是属于无监督学习（Unsupervised learning）的一种，用来把一组数据划分为几类，每类中的数据尽可能的相似，而不同类之间尽可能的差异最大化。通过聚类，可以为样本选取提供参考，或进行根源分析，或作为其它算法的预处理步骤。聚类算法中，最经典的要属于 Kmeans 算法，它的基本思

2016-05-23 14:44:54 1035

Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时（Flink Runtime），提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型，因为他们它们所提供的SLA是完全不相同的：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理，所以在实现的时候通常

2016-05-23 14:01:14 21751 1

转载 Lucene全文搜索原理与使用

本文中主要是对于Lucene全文搜索的基础原理进行简单的分析，以及Lucene实现全文搜索的流程，之后就是Lucene在Java中的最简单使用：创建索引，查询索引库；本文中使用的Lucene主要是4.10.3和6.0.0，两个版本的原理相同，但是API的使用并不相同； 1、结构化数据与非结构化数据 2、非结构化数据搜索 3、全文搜索 4、搜索如何实现 5、Lucene

2016-05-23 13:51:18 1521

原创 Cassandra在CQL语言数据类型与Java中数据类型对应关系

CQL类型对应Java类型描述asciiStringascii字符串bigintlong64位整数blobByteBuffer/byte[]二进制数组booleanboolean布尔counterlong计数器，支持原子性的增减，不支持直接赋值decimalB

2016-05-23 13:44:38 1747

原创 Eclipse如何生成文档（javadoc）：

在项目列表中按右键，选择Export（导出），然后在Export(导出)对话框中选择java下的javadoc，提交到下一步。在Javadoc Generation对话框中有两个地方要注意的： javadoc command:应该选择jdk的bin/javadoc.exe destination:为生成文档的保存路径，可自由选择。按finish(完成)提

2016-05-18 13:57:31 360

原创 Eclipse中产生作者名字的快捷键

鼠标点击空白处，使用alt+shift+j 快捷键产生作者的名字。鼠标点击方法名，使用alt+shift+j 快捷键产生方法的注释。稍微修改下，方便写注释。这样写出的注释，可以被eclipse轻松的生成api文档，这对别人了解你的项目是十分有帮助的。

2016-05-18 13:54:25 1734

转载 Flume+Kafka收集Docker容器内分布式日志应用实践

1 背景和问题随着云计算、PaaS平台的普及，虚拟化、容器化等技术的应用，例如Docker等技术，越来越多的服务会部署在云端。通常，我们需要需要获取日志，来进行监控、分析、预测、统计等工作，但是云端的服务不是物理的固定资源，日志获取的难度增加了，以往可以SSH登陆的或者FTP获取的，现在可不那么容易获得，但这又是工程师迫切需要的，最典型的场景便是：上线过程中，一切都在GUI化的PaaS平台点点

2016-05-18 09:39:39 1199

原创 Linux，执行.sh文件，提示No such file or directory

在window平台下，写好shell脚本文件，迁移到linux平台，赋过可执行权限，执行该sh文件，却提示No such file or directory。ls 了下，确实有该文件，怎么会事呢,难道是文件格式兼容性问题？用vim打开该sh文件，输入：[plain] view plain copy:set ff 回车，显

2016-05-17 14:17:21 1034

原创解决linux不能上外网的问题

最近用VMware 9.0虚拟机装了一个linux系统，但奇怪的是：linux能ping通网关、能ping通局域网内的所有windows机器，但就是ping不同DNS地址、不能ping通任何外网，例如：执行如下命令时 ping www.baidu.com则始终弹出： unknown host www.baidu.com

2016-05-17 11:45:47 1463

转载使用 Spark Streaming 检测关键词

许多公司使用 Apache Hadoop 等分布式文件系统来存储和分析数据。借助脱机 Hadoop 的流式传输分析，您可存储大量的大数据并实时分析它们。本文展示了一个使用 Spark Streaming 实现实时关键词检测的例子。Spark Streaming 是 Spark API 的一个扩展，它支持对实时数据流执行可扩展的、容错的处理。Spark Streaming 拥有丰富的适配

2016-05-16 10:55:43 878

翻译 Spring Data Cassandra 说明文档

地址：http://docs.spring.io/spring-data/cassandra/docs/1.4.1.RELEASE/reference/html/Preface：前言1. Project Metadata：项目相关地址Introduction：入门介绍2. Requirements：环境需求3. Additional Help Resources：额外的帮助资源

2016-05-12 15:46:22 1830

转载使用Java程序来获得某个集群的NameNode或DataNode的相关信息

http://www.aboutyun.com/thread-18336-1-1.html软件版本：hadoop2.2，JDK1.7，Intellij idea140. 配置Configuration如果需要使用Java程序来获得某个集群的NameNode或DataNode的相关信息，那么Configuration需要如下配置：[Java

2016-05-10 10:01:07 2000

转载 hive1.2.1源码导入eclipse

http://www.aboutyun.com/thread-18338-1-1.html软件版本：hive1.2.1 ，eclipse4.5，maven3.2 ，JDK1.7软件准备：hive: 环境准备：（1）. 安装好的Hadoop集群（伪分布式亦可）；（2） linux 下maven环境；（这里需要说下，maven编译hive，在

2016-05-10 09:59:32 515

原创 Cassandra Primary Key讲解

在抽象设计模型时，我们常常需要面对另外一个问题，那就是如何指定各Column Family所使用的各种键。在Cassandra相关的各类文档中，我们常常会遇到以下一系列关键的名词：Partition Key，Clustering Key，Primary Key以及Composite Key。那么它们指的都是什么呢？　　Primary Key实际上是一个非常通用的概念。在Cassandra中

2016-05-09 15:18:28 5813

原创 July 博客中的机器学习系列

http://blog.csdn.net/v_july_v/article/category/1061301

2016-05-04 18:56:10 3895

转载 Spark性能优化指南——基础篇

http://www.aboutyun.com/forum.php?mod=viewthread&tid=18238前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项

2016-05-04 14:05:49 593

转载 Dr.Elephant入门指南 ——Hadoop监控

Dr.Elephant被定位成一个对Hadoop和Spark任务进行性能监控和调优的工具，它能够自动收集Hadoop平台所有的度量标准，并对收集的数据进行分析，并将分析结果以一种简单且易于理解的形式展示出来。Dr.Elephant的设计目的是通过它对任务的分析结果指导Hadoop/Spark开发者对其任务进行便捷的优化，从而提高开发者的效率以及Hadoop集群的使用效率。在Dr.Elephant中

2016-05-04 14:00:10 885

转载初创公司DataStax：专注于Cassandra

DataStax，是一家位于加州的初创公司，提供了一个商业版本的Apache Cassandra NoSQL数据库，近日该公司获得了4500万美元的D轮融资，该轮融资由Scale Ventures引导，这是一位新投资者，同时还有DFJ Growth和Next World Capital，现有的投资者Lightspeed Venture Partners、Crosslink Capital以及Mer

2016-05-03 15:09:33 2449

原创 nifi实例集合：

https://github.com/xmlking/nifi-examplescollect-stream-logsThis flow shows workflow for log collection, aggregation, store and display.Ingest logs from folders.Listen for syslogs on UD

2016-05-03 12:13:22 7807 1

华为数据之道知识总结.xmind

2021-02-22

数据治理知识体系.xmind

数据治理涉及组织体系、标准体系、流程体系、评价体系、技术体系几方面的内容，主要包含：元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理等内容。

2021-01-31

基于Elasticsearch2.1.1的JavaAPI基本操作代码示例

2016-01-22

《医学信息决策与支持系统》题库

《医学信息决策与支持系统》题库，最完整的医学决策练习题。

2014-07-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

大数据技术杂谈