2018年03月_贫僧洗头爱飘柔

原创中文分词基础

（一）中文分词基础背景• 一段文字不仅仅在于字面上是什么，还在于怎么切分和理解。• 例如： – 阿三炒饭店： – 阿三 / 炒饭 / 店阿三 / 炒 / 饭店• 和英文不同，中文词之间没有空格，所以实现中文搜索引擎，比英文多了一项分词的任务。• 如果没有中文分词会出现： – 搜索“达内”，会出现“齐达内”相关的信息• 要解决中文分词准确度的问题，是否可以提供一个免费...

2018-03-31 15:03:27 1794

原创 NLP文本相似度

因为CSDN总会把后边一截给自动删掉，所以移动到简书地址（一）余弦相似度、向量空间模型1、相似度• 相似度度量：计算个体间相似程度• 相似度值越小，距离越大，相似度值越大，距离越小• 最常用——余弦相似度 – 一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小 – 余弦值接近1，夹角趋于0，表明两个向量越相似2、例子3、处理流程• 得到了文本相似度计算的处理流程是: ...

2018-03-31 11:52:29 3404

（一）Spark Streaming简介参考文章：点击打开链接1、Spark Streaming概念Spark Streaming是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。类似于ApacheStorm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例...

2018-03-31 10:32:23 1806

原创 Spark SQL基础与实践

（一）Spark SQL基础简介• Spark SQL是Apache Spark大数据框架一部分，主要用于处理结构化数据和对spark数据执行类sql的查询• Spark为其提供了一个称为DataFrame的编程抽象，充当分布式SQL查询引擎• Spark SQL功能： – 集成：无缝将SQL查询与Spark程序混合 – 统一数据访问：加载来自各种来源的数据 – 兼容性：Spar...

2018-03-31 09:38:30 1064

原创 Hbase基础与原理详解

Hbase简介1.1 Hbase的含义 HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。是Apache软件基金会的Hadoop项目的一部分，运行于HDFS文件系统之上，因此可以容错地存储海量稀疏的数据。 HBase是一个开源的非关系型分布式数据库（NoSQL），它参考了谷歌的BigTable建模...

2018-03-28 23:16:05 1994

原创 Spark基础

spark概述1.1 什么是Spark（官网：http://spark.apache.org）Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Stre...

2018-03-26 23:19:16 595

原创 Hive原理详解

(一) Hive基础1.1 背景• 引入原因： – 对存在HDFS上的文件或HBase中的表进行查询时，是要手工写一堆MapReduce代码 select word, count(*) from ( select explode(split(sentence, ' ')) as word from article) t group by word即可完成wordcount(...

2018-03-25 20:00:53 18033 3

原创离线计算辅助系统--Flume详解

在一个完整的大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示：（一）Flume介绍• Apache软件基金顶级项目• Apache Flume是一个分布式、可信任的弹性系统，用于高效收集、汇聚和移动大规模日志信息从多种不同的数据源到一个集...

2018-03-24 19:57:16 593

原创流式计算--Kafka详解

理解storm、spark streamming等流式计算的数据来源、理解JMS规范、理解Kafka核心组件、掌握Kakfa生产者API、掌握Kafka消费者API。对流式计算的生态环境有深入的了解，具备流式计算项目架构的能力。所以学习kafka要掌握以下几点：1、 kafka是什么？2、 JMS规范是什么？3、为什么需要消息队列？4、 Kafka核心组件5...

2018-03-24 16:08:02 14648 1

原创 Storm详解

（一） Storm介绍学习storm需要掌握以下几个知识点1、离线计算是什么？2、流式计算是什么？3、流式计算与离线计算的区别？4、 Storm是什么？5、 Storm与Hadoop的区别？6、 Storm的应用场景及行业案例7、 Storm的核心组件（重点掌握）8、 Storm的编程模型（重点掌握）9、流式计算的一般架构图(重点掌握)10、集群部署的基本流程11、 ...

2018-03-18 22:47:11 1870

原创 Zookeeper详解

一. Zookeeper概念简介：Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务A、zookeeper是为别的分布式程序服务的B、Zookeeper本身就是一个分布式程序（只要有半数以上节点存活，zk就能正常服务）C、Zookeeper所提供的服务涵盖：主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务……D、虽然说可以提...

2018-03-05 23:13:41 623

ForgetThatNight的博客