自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

qq_30589271的博客

一个在ETL 和 机器学习 打滚的 土鳖

  • 博客(22)
  • 收藏
  • 关注

原创 FileNotFoundError: [Errno 2] No such file or directory: ‘dot‘

2、如果还是不行,你可能需要安装graphviz-dev包,输入sudo apt-get install graphviz-dev,按回车键,输入密码,按回车键,等待安装完成。1、在终端输入sudo apt-get install graphviz,按回车键,输入密码,按回车键,等待安装完成。3、如果还是不行,你可能需要检查你的环境变量是否包含graphviz的bin目录,输入echo。在绘制树形结构图的时候出现上述报错:已安装环境为ubuntu,python3.9。,按回车键,查看输出是否包含类似。

2023-05-12 17:25:36 1216

原创 Pytorch:PyTorch中的nn.Module.forward()函数、torch.randn()函数和torch.cat()函数使用

在类初始化的时候并不会触发forward()函数的调用,而是在实例化后,在需要计算前向传播时才会被调用。当你实例化了一个神经网络时,可以通过传入网络输入,调用其forward()函数输入到神经网络中,获取输出结果。在上述代码中,我们定义了一个AddNet神经网络类,它包含两个全连接层,其中第一层连接输入的x和y,第二层输出一个单独的节点,即对x和y的和的预测。在forward()函数中,我们将x和y按列拼接组成(1,2)的输入,接着经过一层ReLU激活函数和一层线性层后输出结果。

2023-04-06 14:51:15 1099

原创 Pytorch:.gather(1,)和.gather(0,)的区别

Pytorch中gather(1,)和.gather(0,)的区别?在 PyTorch 中,.gather(dim, index) 函数用于根据给定的索引在指定的维度上获取张量的元素。其中,dim 表示要进行索引的维度,index 是包含索引值的一个张量。下面以一个简单的例子来解释 .gather(1,) 和 .gather(0,) 的区别:import torch# 构造一个 3x4 的 Tensor,每个元素的值为对应位置的行列索引之和x = torch.tensor([[0, 1, 2,

2023-04-05 22:06:23 432

原创 Pytorch:.max(0)和.max(1)的区别?

在上面的例子中,我们首先构造了一个 3x2 的 Tensor x,然后分别使用 .max(0) 和 .max(1) 计算了每个维度上的最大值和最大值所在的维度索引。可以看到,.max(0) 返回了每列最大值和它们的行索引,而 .max(1) 返回了每行最大值和它们的列索引。在 PyTorch 中,max(dim) 函数的参数 dim 表示计算最大值的维度,可以被设置为 0 或 1。那么,.max(0) 和 .max(1) 的区别在于计算的方向不同。的每列最大值和它们的行索引。的每行最大值和它们的列索引。

2023-04-05 21:56:07 902

原创 【动手学强化学习】安装gym subprocess-exited-with-error

注意:安装python3.8之后 可以使用python3.8 -m pip install XXXX安装包了,但是 发现在安装pandas,numpy 的时候会出现莫名其妙的问题,所以依然安装pip3.8。1、文中使用gym为== 0.18.3 该版本 支持 python3.8 python3.9 使用会有问题,env.seed()无法直接使用。报错原因:setuptools 版本太高了,无法安装gym == 0.18.3。2、在linux下又安装了一个python3.8的环境,并安装pip3.8。

2023-04-01 15:58:20 3448 3

原创 1.3因果变量分析-因果关系估计误差来源

因果关系估计误差来源

2020-09-06 23:35:34 985 1

原创 Python 3 logging.TimedRotatingFileHandler分等级写入不同文件夹

Python 3 中的logging 日志文件的回滚模块RotatingFileHandler,主要有两种方式,一种是基于文件的大小进行回滚,第二种是基于当前系统时间进行回滚。但是我们都希望将不同等级的信息放在不同的文件中,第一种目前已有较多的参考,以文件大小方式当然基于时间回滚的方法即 通过调用TimedRotatingFileHandler()函数进行配置即可,详细的代码见如下`-- co...

2019-11-24 14:33:28 2598

原创 Spark学习(六) 数据结构(迭代器、数组、元组)

Spark学习(六)数据结构(迭代器、数组、元组)1、迭代器(Iterator)1)在Scala中迭代器不是一种集合,但是它提供了访问集合的一种方法2)迭代器包含两个基本操作:next和hasNext。next可以返回迭代器的下一个元素,hasNext用于检测是否还含有下一个元素如下提供两种访问迭代器内元素的方法:1)通过迭代器自带的方法访问val ite=Iterator(“Hado...

2019-02-09 20:21:55 1570 1

原创 Spark学习(五)Scala数据结构(容器,列表,集合,映射)

Spark学习(五)Scala数据结构(容器,列表,集合,映射)1、容器(Collection)1)Scala提供了一套十分丰富的容器(collection)库,包括列表(List)、数组(Array)、集合(Set)、映射(MapR)等2)根据容器中元素的组织方式和操作方式不同,可以分为有序和无须,可变和不可变的容器类别;3)Scala使用三个包来组织容器类,分别是scala.colle...

2019-01-22 00:03:14 797

原创 Spark学习(四)Scala语言控制结构

Spark学习(四)Scala语言控制结构1)if,while,for 循环

2019-01-16 16:44:35 176

原创 Spark学习(三)Ubuntu 18.0 Scala 安装详解

Scala语言Spark是使用Scala语言进行开发的,所以虽然Spark支持Python、R语言,但是使用Scala语言编程将会减少Spark将Python、R转换为底层的Scala的过程。Scala安装和使用方法1、需要先在linux中安装jdk文件:安装方法见Ubuntu JDK安装方法2、安装scala,到官网Scala官网下载最新版本的Scala.tgz文件。3、配置Scala...

2019-01-06 18:44:21 976 4

原创 Spark学习(二)Spark是什么

Spark是什么Spark从2012年诞生,在2016年飞速的火了起来,抢占了很多Hadoop的市场份额,其主要的竞争核心就是优于MapReduce,所以让我们开始了解一下Spark吧~Spark框架Spark是内部是一个完整的生态系统:1、Spark Core处于底层,用于支持不同应用场景的组件2、Spark SQL对关系型数据库进行存储Spark Streaming对流数据进...

2019-01-04 13:57:13 309

原创 Spark学习(一)Spark 他老爹 Hadoop

Spark 他爹HadoopSpark和Hadoop的关系Hadoop各个核心组件的作用1、两大核心 HDFS/HBase和MapReduce2、Hive(数据仓库)3、Pig(数据流处理)4、Mahout(数据挖掘库)5、Zookeeper(分布式写作服务)6、Flume(日志收集)7、Sqoop(数据库的ETL工具)8、Ambari(安装、部署、配置、管理工具)9、YARN(资源调度和管理框架...

2018-12-31 12:15:16 195

原创 Kettle 的分组操作

用的久了之后返现Kettle中很多组件会存在迷惑的地方: 今天记录一下实验的KEttle中分组插件的使用情况 首先我们先看一下此次分组的对象是什么我们想要对本月办理的证照个数,以ROJECTID来进行分组,被记录个数的字段是Entery_into_force_date 看一下我们分组组件的配置情况 由此我们可以发现,分组字段使我们的被操作的上一个级别。在举个的标签栏中不需要重复操作项目...

2018-04-03 20:53:53 8508

原创 Pentaho BI Server (1)

Pentaho跟着导师做了ETL 只使用了Kettle,以为足够我使用了, 最近因为要准备论文了,才发现Pentaho是一个完整的生态系统,有必要进一步的学习。先来说一下目前我了解的Pentaho BI Server的内容吧: 这个BI Server应该是一个平台 上面集成了Pentaho的其它组件 如:Kettle Weka PRD 可以在该平台上调用这些组件。 并且BI Serve...

2018-04-02 10:52:53 648

原创 Python 3 if else 自我总结

由于从c C++跳过来学Python,所以一直对Python的缩进规则用的很不熟悉,所以在这里稍微总结一下吧。特别是今天本来用C5分钟搞定的事情,自己调试加摸索更是调试了1个小时。 先写一段比较经典的逻辑if 嵌套格式吧。 if 表达式1: 语句 if 表达式2: 语句 elif 表达式3: 语句 else:

2018-01-31 22:11:05 414

原创 Weka下的线性回归分类 以及 基于预测值进行分类

Weka 的Liner Regression并且用Liner Regression的预测值进行分类 简单了解一下这个概念吧 Classification by regression Linear regression can be used for classification too. On the diabetes data, use the NominalToBinary filter

2018-01-11 18:45:44 5031 1

转载 Weka OneR 和 ZeroR 加深理解

ZeroR分类器是一种最简单的分类器,这种方法仅仅根据历史数据统计规律,而选择一种概率最大的类别作为未知样本的分类结果,也就是说对于任意一个未知样本,分类结果都是一样的。ZeroR分类器简单的以多数类的类别(连续型数据使用简单均值)作为预测值。尽管这种分类器没有任何的预测能力,但是它可以作为一种与其他分类器的对比分类器。也就是说baseline performance。算法描述:为数据集建

2018-01-11 13:50:04 5823

原创 rood-Python 3读取.CSV文件遇到的编码问题

今天算是我第一次进行Python 静心的学习过程了。 拿到隧道的数据 拷贝一下 我擦30多G 很是happy 看来可以在 故障检测上面的 有点进展了。 进入正题: 首先想要读取.CSV 文件,看到pandas模块有直接读取的操作read_csv()函数。虽然印象中Python中好像内置有open() ,read()等等函数,但是呃呃 我是渣渣 实在记不得怎么用。。。。。。 于是很开心的

2018-01-10 22:13:57 1482

转载 菜鸟-最小二乘法(转载)

一.背景   5月9号到北大去听hulu的讲座《推荐系统和计算广告在视频行业应用》,想到能见到传说中的项亮大神,特地拿了本《推荐系统实践》求签名。讲座开始,主讲人先问了下哪些同学有机器学习的背景,我恬不知耻的毅然举手,真是惭愧。后来主讲人在讲座中提到了最小二乘法,说这个是机器学习最基础的算法。神马,最基础,我咋不知道呢! 看来以后还是要对自己有清晰认识。   回来赶紧上百度,搜了下

2018-01-08 15:28:15 206

原创 Kettle插入/更新 理解

曾经自己一度对Kettle的 更新和插入/更新十分的迷惑,现在有了自己的见解,记录一下。我们使用插入/更新的 时候会发现窗口分为上下两部分,上半部分是用来查询的,下半部分是所需要的信息。当执行该操作的时候,会对上半部分的字段进行检索,如果找到相同的则对 其后所跟的信息进行查询。如果找不到 则对整条记录进行插入。

2018-01-01 23:37:10 4464 3

原创 Oracle 表示系统前一个月表示方法

select to_char(add_months(trunc(sysdate, 'MM'), -1),'yyyy') from dualselect to_char(add_months(trunc(sysdate, 'MM'), -1),'MM') from dual这两句语言 顺利的解决了 根据2018.1.1 得到 2017.12.1号日期的方法

2017-12-24 14:35:52 1540

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除