自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(50)
  • 收藏
  • 关注

原创 Sklearn的Tf-Idf的向量计算

对于TF-IDF的计算,我们都知道是TF与IDF的乘积,但sklearn中计算的结果和我们手动计算的不太一样,究竟是什么原因呢?TF计算为词在文档中出现的频数。IDF为总文档除以词出现在文档中的文档数,再求对数,再加1。即其中,n为总文档数,df(t, d)为出现词t的文档数d。为了防止df(t, f)为0,一般我们会将n和df(t, d)加1,进行平滑。即使用 TF * IDF即得到结果。但是,sklearn中的计算结果却与我们计算得到的不同。from sklearn.f

2020-09-10 09:39:54 36

原创 关于Dict2Anki插件不能导入欧路词典的问题

1.按照下面网址的介绍更改欧路词典处理文件看这里2.新建一个模板新建一个模板,名称为“Dict2Anki-v6.1.3”,后面的版本换成自己的版本。如图所示:3.添加字段包含字段包含如下:['term', 'definition', 'sentenceFront', 'sentenceBack', 'phraseFront', 'phraseBack', 'image', 'BrEPhonetic', 'AmEPhonetic', 'BrEPron', 'AmEPron']其

2020-09-08 17:47:29 282

原创 使用tar解压gz文件出现 “not in gzip format”错误解决办法

我在解压.gz文件时使用的下面命令:tar -zxvf *.tar.gz然后出现下面的提示:gzip: stdin: not in gzip formattar: Child returned status 1tar: Error is not recoverable: exiting now解决办法:tar -xvf *.tar.gz

2020-09-07 15:12:58 119

原创 机器学习算法之感知机

1、基本定义1.基本介绍感知机是由两层神经元组成的,输入层接收外界输入信号号传递给输出层,输出层是M-P神经元,也称为"阈值逻辑单元"。其中x1、x2为输入神经元,y是输出神经元。w1,w2分别为x1,x2的权重,权重代表着该神经元的重要性。b为偏置,表示输出神经元激活的容易程度。感知机是二分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于特征空间中将实例划分为正负两类的分离超平面,属于判别模型。2.定义假设输入空间(特征空间)是,输出空

2020-07-17 15:17:29 60

原创 机器学习之模型评估与选择(一)

1、模型评估现实中,可供选择的算法有很多,参数不同,每个算法也有不同的形式,我们应该如何选择最优的那个?如果按照泛化误差最小来选择是最好,但我们又不能得到未知的数据,不能直接计算泛化误差。如果仅仅使用训练集来选择,我们不能知道该模型是否对于泛化误差也最小。1.验证方法与采样为了能够在训练集中获得泛化误差的近似,我们需要将训练集划分为训练集和测试集,用测试集误差近似泛化误差,但要保证测试集是从样本真实分布中独立同分布采样而得,且尽可能与训练集互斥,即测试样本不曾在训练样本中出现过。如何对数据集

2020-07-16 16:13:37 163

原创 机器学习的分类

1、一般分类机器学习的一般分类为:监督学习、无监督学习、强化学习、半监督学习、主动学习。1.监督学习监督学习是从<x, y>这样的示例对中学习统计规律,然后对于新的X,给出对应的y。输入空间、特征空间、输出空间、假设空间输入、输出所有可能的取值的集合分别称为输入空间、输出空间。一个具体的输入是一个实例,通常由特征向量表示,特征向量组成的空间为特征空间。特征空间与输入空间可以为同一空间,也可以为不同空间。输入输出的随机变量一般用大写X、Y表示,具体实例使用小写表示。输

2020-07-14 20:02:51 51

原创 机器学习之基本定义

什么是机器学习?

2020-07-14 11:26:05 60

原创 ValueError: Unicode strings with encoding declaration are not supported.

在写爬虫爬取网页时遇到题目中的问题,完整错误如下:def getXpath(req, xpath): sourcehtml = etree.HTML(req.text) print(sourcehtml) nodes = sourcehtml.xpath(xpath) return nodesValueError:Unicodestringswithencodingdeclarationarenotsupported.Pleaseusebyt...

2020-06-26 20:11:21 126

原创 Type Error:an integer is required的解决方法

TypeError: an integer is required 的解决方法在执行open函数操作文件时,会出现题目中的错误。看其他博客说由于从os模块引入了所有的函数导致的!我之所以造成这样的原因是因为在执行open函数时,在参数操作模式后直接传入了“utf-8”。具体解决方法:在“utf-8”前加上“encoding=”即可解决!...

2020-06-26 16:18:11 2997

原创 hive中数据的几种加载方式

1、从linux fs和hdfs中加载load data [local] inpath 'path' [overwrite] into table tblName [partition_sepc];[local]:如果加上表示本地地址,如果没有表示HDFS上的地址。[overwrite]:如果加上表示覆盖之前的数据,如果没有表示追加之前的数据。[partition_

2017-04-19 23:05:22 2404

转载 metadata远程存储和hive.metastore.local属性的说明

官网上对hive.metastore.local属性的解释为:local or remote metastore (Removed as of Hive 0.10: If hive.metastore.uris is empty local mode is assumed, remoteotherwise);即本地或者远程的元数据(在hive0.10版本上删除列这个属性;如果hive.me

2017-04-19 23:02:31 1296

原创 hive的metastore的选择

metastore是hive元数据的集中存放地,Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。Hive将元数据存储在数据库中(metastore),目前只支持 mysql、derby。metastore默认使用内嵌的derby数据库作为存储引擎,但是我们一般选择使用mysql作为meta的存储位置。

2017-04-19 22:59:08 341

原创 调用Hadoop时遇到的一个问题:could not find or load main class

最近在使用其他框架调用Hadoop时,执行命令出现错误,查看UI界面的日志发现,如下:导致错误的原因应该是,在程序运行时,找不到Hadoop中的MRAppMaster的主类,导致程序无法进行下去。解决方法:在yarn-site.xml文件中name为yarn.application.classpath对应的value中配置Hadoop的相关jar需求等,如下:

2017-04-19 22:41:31 9171

原创 集群运行spark时出现的问题

在运行spark时遇到一个问题,spark程序在集群上运行了一段时间后,突然挂掉了,查看日志发现了下面的错误信息,如下图所示:spark程序是提交到yarn上运行的,而在yarn中,container是程序最终运行的容器,从上面的日志上我们可以看到是在container启动时出现了异常,也就是说container容器没有能够正常启动,直接退出了。后来查看提交程序时的命令,如下:

2017-04-19 22:38:01 649

原创 hive表的DDL操作

查看表hive> show tables;创建表hive> create table t1(id int);查看表结构hive> desc [extended] t1;extended是可选的,是扩展的表的信息删除表hive> drop table t1;重命名表的名称h

2017-04-19 22:23:28 527

转载 hive常用语句示例

1/ DDL1.1 内部表和外部表(external)create table t_2(id int,name string,salary bigint,add string)row format delimitedfields terminated by ',';create external table t_3(id int,name string,sala

2017-04-19 22:22:14 380

原创 数据的两种加载模式

读模式数据库加载数据的时候不进行数据的合法性校验,在查询数据的时候将不合法的数据显示为NULL,好处:加载速度快,适合大数据的加载。写模式数据库加载数据的时候要进行数据的合法性校验,在数据库里面的数据都是合法的好处:适合进行查询,不会担心有不合法的数据存在。hive使用的就是读模式,而mysql等数据库使用的则是写模式。

2017-04-19 22:15:30 497

原创 hive的三种复合数据类型array、map、struct以及自定义分割符示例

Hive的数据类型主要有int、boolean、date、array、map、struct等,在这只描述array,map,struct三种。1.array(等同于数组,可以使用下标来操作相应的元素)默认分割符下的array,示例如下:有一群学生,id,name,hobby(多个)create table t3_arr(id int,na

2017-04-19 22:04:21 6296

原创 hive的四种表类型

Hive表有受控表(内部表)、外部表、分区表、桶表四种。内部表,就是一般的表,前面讲到的表都是内布标,当表定义被删除的时候,表中的数据随之一并被删除。外部表,数据存在与否和表的定义互不约束,仅仅只是表对hdfs上相应文件的一个引用,当删除表定义的时候,表中的数据依然存在。创建外部表,external是外部表的关键字,也是和内部表有区别的地

2017-04-19 22:02:46 7692

原创 hive视图和索引的简单介绍

Hive和mysql等数据库一样,也有视图的概念,视图实际上是一张虚拟的表,是对数据的逻辑表示,只是一种显示的方式,主要的作用是:1、视图能够简化用户的操作2、视图使用户能以多钟角度看待同一数据3、视图对重构数据库提供了一定程度的逻辑独立性4、视图能够对机密数据提供安全保护5、适当的利用视图可以更清晰的表达查询如何创建一个视图?create

2017-04-19 22:01:10 515

原创 数据的导出

这个是数据装载的反向过程,有两种方式1°、在hdfs的直接上操作hadoop fs -cp src_uri dest_uri或者hive> export table tblName to'hdfs_uri';2°、在终端使用directoryinsert overwrite [local] directory'linux_fs_path' selec

2017-04-19 21:42:34 197

原创 hive中的本地模式

hive中的hql语句的执行大部分最后转化为了mr,但是执行的过程非常的慢,可以使用本地模式提高效率,不过不适合大数据量的时候。需要开启本地模式:sethive.exec.mode.local.auto=true;这时再去执行相同的hql时,会发现速度提高很多。但是,本地模式主要用来做调试,不能配置到hive-site.xml中,因为本地模式,会只在当前机器上执行mr,如果

2017-04-19 21:40:54 281

原创 sqoop从mysql迁移数据到hive中遇到的问题

INFO mapreduce.Job: Counters: 12        Job Counters                 Failed map tasks=1                Killed map tasks=3                Launched map tasks=4                Rack-lo

2017-04-19 21:22:44 4452 1

原创 spark的持久化存储

Spark RDD是惰性求值的,而有时由于业务需要,我们要复用一个RDD。对于这种情况,如果我们只是简单地对RDD调用行动操作,Spark 将会每次都重算RDD 以及它的所有依赖。这在迭代算法中消耗格外大,因为迭代算法常常会多次使用同一组数据。例如:Scala 中的两次执行val result = input.map(x => x*x)println(resul

2017-04-13 22:54:00 257

原创 惰性求值的简单介绍

惰性求值意味着当我们对RDD调用转化操作(例如调用filter() )时,操作不会立即执行。Spark会在内部记录下所要执行的操作的相关信息。所以我们这时不应该把RDD看作存放着特定数据的数据集,而要把每个RDD当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。把数据读取到RDD的操作也同样是惰性的。因此,当我们调用sc.textFile(...) 时,数据并没有被读取到内存中,而是要在

2017-04-12 22:14:21 937

原创 spark的数据存储

Spark数据存储的核心是弹性分布式数据集(RDD)。RDD可以被抽象地理解为一个大的数组,这个数组中的每个元素是RDD逻辑上的一个分区(partition),每个分区分布在集群上的不同节点上。在spark的执行过程中,RDD经过transformation算子之后,最后由action算子触发操作。逻辑上每经历一次转换,就会将RDD转换为一个新的RDD,新的RDD和旧的RDD之

2017-04-12 22:13:35 1589

原创 RDD的两种操作算子

RDD支持两种类型的操作算子:Transformation(转换)与Action(行动)。1、Transformation(变换)Transformation操作会由一个RDD生成一个新的 RDD。Transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行,需要等到Actions操作时,才真正开始运算。

2017-04-12 22:12:40 4021

原创 RDD的简介

在spark中,有一个不可变的分布式数据结构,即弹性分布式数据集(RDD),它是逻辑集中的实体,在集群中的多个节点上被分为多个分区。通过对多个节点上不同RDD分区的控制,能够减少机器之间的数据重排(data shuffling)。Spark提供了一个”partitionBy”运算符,能够通过集群中多个节点之间对原始RDD进行数据再分配来创建一个新的RDD。R

2017-04-12 22:10:48 257

原创 MapReduce的介绍

MR简述:MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。 MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段也是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。 MapReduc

2017-04-12 22:09:47 225

原创 spark中会遇到的一些名词

RDD Resillient distributed dataset 弹性分布式数据集Application Spark的用户程序Driver Program 运行main函数并且新建SparkContext的程序Cluster Manager Spark集群资源调度服务(standalone,mesos,yarn)Worker Node Spark集群中的运行应用

2017-04-12 22:09:02 136

原创 spark的集群管理器

上篇文章谈到Driver节点和Executor节点,但是如果想要运行Driver节点和Executor节点,就不能不说spark的集群管理器。spark的集群管理器大致有三种,一种是自带的standalone独立集群管理器,一种是依赖于Hadoop的资源调度器YARN,还有一种就是Apache项目的Mesos集群管理器。Spark 依赖于集群管理器来启动Executor节点,有时候也会依赖

2017-04-12 22:07:05 1356

原创 spark的Driver节点和Executor节点

1.驱动器节点(Driver)Spark的驱动器是执行开发程序中的 main方法的进程。它负责开发人员编写的用来创建SparkContext、创建 RDD,以及进行 RDD 的转化操作和行动操作代码的执行。如果你是用spark shell,那么当你启动 Spark shell的时候,系统后台自启了一个 Spark 驱动器程序,就是在Spark shell 中预加载的一个叫作 sc 的 Sp

2017-04-12 22:05:59 5214 2

原创 遇到的一个MR处理业务

最近遇到的一个要求使用MR处理的业务,原始数据一共有7个字段,原始数据中的两个字段可以根据客户提供的方法得出一个指标。要求:1、新的数据是在原始的数据后面调加上这个指标2、保证数据没有重复的3、。。。由于保密,数据就不贴出来了。拿到这个一共有二个思路:1、在map函数中解析出这两个字段,然后根据方法得出指标,在最后写出去的时候context.

2017-04-11 19:53:20 240

原创 spark的架构

在分布式环境下,Spark 集群采用的是master/slave结构。Master是对应集群中的含有master进程的节点,slave是集群中含有worker进程的节点。Master作为整个集群的控制器,负责整个集群的正常运行;worker相当于是计算节点,接收主节点命令与进行状态汇报,client作为用户的客户端负责提交应用。在一个 Spark集群中,有一个节点负责中央协调,调度各个分布

2017-04-11 19:51:36 320

原创 spark的生态圈

Spark系统中,其核心框架是spark core,同时涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL和shark,提供机器学习功能的系统MLbase及底层的分布式机器学习库MLlib,并行图计算框架GraphX、流计算框架SparkStreaming。采样近似计算查询引擎BlinkDB、内存分布式文件系统Tachyon、资源管理框架等子项目。如下图所示:下面对

2017-04-11 19:49:08 728

原创 spark与Hadoop的比较

1、spark与Hadoop的联系1)spark继承HadoopSpark 紧密集成 Hadoop 生态系统里的许多工具。它能读写 MapReduce 支持的所有数据格式,可以与 Hadoop 上的常用数据格式,如 Avro 和 Parquet(当然也包括古老的 CSV),进行交互。它能读写 NoSQL 数据库,比如HBase和Cassandra。它的流式处理组件 Spark St

2017-04-11 14:04:10 2219

原创 参考书籍

对于博客中的内容,参考了以下书籍的内容,感谢这些作者将自己的知识和经验拿出来让我们学习。spark高级数据分析spark快速大数据分析Spark大数据处理:技术、应用与性能优化(全)Spark快速数据处理

2017-04-10 21:33:24 231

原创 聊聊spark这个大数据计算框架

Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了其在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。由于Spark的核心引擎有着速度快和通用的特点,因此 Spark 还支持为各种不同应

2017-04-10 21:28:41 4976

原创 简单聊聊HDFS的federation

HDFS 的federation:两个或者多个HDFS集群对外提供统一服务成为federation有多个namenode,每个datanode中有属于每个namenode的数据。HDFS Federation设计可解决单一命名空间存在的以下几个问题: (1)HDFS集群扩展性。多个NameNode分管一部分目录,使得一个集群可以扩展到更多节点,不再像1.

2017-04-10 20:15:08 282

原创 简单聊聊HDFS的HA

HDFS 的HA 原理:HDFS的HA,指的是在一个集群中存在两个NameNode,分别运行在独立的物理节点上。在任何时间点,只有一个NameNode是处于Active状态,另一种是在Standby状态。 Active NameNode负责所有的客户端的操作,而Standby NameNode用来同步Active NameNode的状态信息,以提供快速的故障恢复能力。

2017-04-10 20:07:13 212

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除