自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 2021-04-30

HBase介绍:1、分布式开源数据库2、面向列3、Big Table开源实现4、适合非结构化数据的存储5、PB级别的数据6、可以支撑在线业务7、分布式系统特点8、分布式系统特点:易于扩展,支持动态伸缩,并发数据处理。面向列数据库1、关系型数据库:行式存储,每一行数据都是连续的,所有的记录都放到一个连续的存储空间中。2、列数据库:行式存储,每一列对应一个文件,不同列并不对应连续的存储空间。3、结构化数据V.S.非结构化数据结构化数据预定义的数据模型,模型一旦确定不会经常变化非结构

2021-04-30 01:11:47 143

原创 Sqoop

Sqoop概述1、什么是Sqoop作为数据交换工具,可以实现数据从mysql oracle<==>hdfs之间相互传递原理:通过写Sqoop命令把sqoop命令翻译成mapreduce,通过mapreduce连接各种数据源,实现数据的传递。

2021-04-29 17:40:12 125

原创 Hive

Hive基于Hadoop数据保存到HDFS数据仓库工具结构化的数据 映射为一张数据库表01,张三,8902,李四,9103,赵武,92HQL查询功能(Hive SQL)将分布式计算的任务交给MapReduce,然后用Hive进行操作。HQL查询功能(Hive SQL)本质把HQL翻译成MapReduce,降低使用Hadoop计算的门槛。离线数据分析开发效率比直接用MapReduce高使用Hive1、操作接口采用SQL语法,提供快速开发的能力2、避免了去写MapReduce,减少开

2021-04-29 17:11:27 192

原创 Hodoop生态

MapReduce Mapreduce慢的原因: 数据处理的时候,频繁的在磁盘和内存上进行数据IO而不是始终在内存中处理,这些I/O操作导致了速度比较满。 MapReduce的架构演变 1、1.x的时候 JobTracker master 计算集群管理 TaskTracker Slave 负责具体任务执行的 Task Scheduler 作业调度 2、2.x的时候 Yarn出现 作业的调度交给Yarn处理 MapReduce只是进行具体任务执

2021-04-29 01:16:38 185

原创 Hadoop

Hadoop 概念一、分布式计算框架可靠可扩展二、可扩展集群可以上万台,分布式计算与分布式存储三、可靠High-availability四、Hadoop可以做啥: 数据仓库 数据库一般只保存数据的最新状态,极个别重要的值会保存历史版本 数据仓库会保存所有的历史版本,只记录很少更新删除 PB级数据的存储处理分析统计 日志分析 数据挖掘 BIHadoop组件一、hadoop common1、协调其他组件的通用工具

2021-04-27 18:38:11 118

原创 文本分类(NLP)

文本分类概述(NLP)文本分类问题:给定文档p,将文档分类为n个类别中的一个或多个文本分类应用:常见的有垃圾邮件识别,情感分析文本分类方向:主要有二分类,多分类,多标签分类本分分类方法:传统机器学习方法(贝叶斯、SVM等),深度学习方法(fastText,TextCNN等)本文的思路:...

2021-03-21 16:53:44 1559

原创 语料库

语料库语料库作为自然语言处理领域中的数据集,使我们教机器理解语言不可或缺的习题集。在这一节中,我们来了解一下中文处理中的常见语料库,以及语料库建设的话题。中文分词语料库中文分词语料库指的是,由人工正确切分后的句子集合。词性标注语料库指的是切分并为每个词语指定一个词性的预料。总之,我们要教机器干什么,我们就得给机器示范什么。依然以《人民日报》语料库为例,1998年的《人民日报》一共含有43种词性,这个集合称作词性标注集。命名实体识别语料库这种语料库人工标注了文本内部制作者关心的实体名词以及实体类

2021-03-21 15:30:33 770

原创 深度学习之特征工程

深度学习之特征工程Feature Engineering特征比分类器更重要,几种特征工程的方法:1、预处理:经过数据的预处理,如去除噪声等。比如在文本分类中,去除停用词等;2、特征提取:从原始数据中提取一些有效的特征。比如在图像分类中提取边缘、尺度不变特征变换特征等。3、特征转换:对特征进行一定的加工,比如降维和升维。降维包括:特征提取:PCA、LDA特征选择:互信息、TF-IDF深度学习 = 表示学习+浅层学习单个神经细胞只有两种状态:兴奋和抑制。...

2021-03-08 11:12:57 659

机器学习 - 支持向量机

支持向量机人工智能代码,可以通过调用不同的核函数,对代码进行修整。

2019-04-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除