功夫猫熊yeah-CSDN博客

打开Anaconda Propmt在命令行里面输入如下命令:创建pytorch-gpu虚拟空间conda create -n pytorch-gpu python=3.7 -y切换到pytorch-gpu空间conda activate pytorch-gpu为了使得安装快速,需要添加清华源conda config --add channels http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --ad

2022-01-09 18:08:23 608

原创 A/B test流程

2021-09-07 11:59:52 233

原创 spark ml 回归模型之共享单车模型

数据来源下载地址

2021-08-26 08:12:27 549

原创 spark-ml的pom文件

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/mav

2021-08-26 08:10:51 495

原创 spark trouble-shooting之Reference ‘temp‘ is ambiguous, could be

查看dataframe的可以发现temp列有两列,所以在运行时候报如下错误:这里是引用Caused by: org.apache.spark.sql.AnalysisException: Reference ‘temp’ is ambiguous, could be: temp, temp.;at org.apache.spark.sql.catalyst.expressions.package$AttributeSeq.resolve(package.scala:259)at org.apa

2021-08-26 08:01:18 1170 1

原创 spark ml之推荐系统实现

//查看下给定列个值得一个基本信息,例如数量平均值最大值最小值中位数这些基本描述 rating.describe("userId","movieId","rating").show }}查看数据的平均值中位数最大值,最小值,对数据有个最基本的认识将数据分文三部分:训练集验证集测试集 val splits = rating.randomSplit(Array(0.6,0.2,0.2),seed=1234)// 1234为随机种子,为了保证每次的验证结果相同...

2021-08-23 10:05:47 448

原创 spark-ml 之决策树-性别预测

数据如下:male.txt[174.0, 65.6], [175.3, 71.8], [193.5, 80.7], [186.5, 72.6], [187.2, 78.8], [181.5, 74.8], [184.0, 86.4], [184.5, 78.4], [175.0, 62.0], [184.0, 81.6], [180.0, 76.6], [177.8, 83.6], [192.0, 90.0], [176.0, 74.6],

2021-08-14 07:48:08 411

原创 spark ml 报错如下:java.io.NotSerializableException: scala.runtime.LazyRef

用idea执行执行spark ml任务,参考官方的代码,但是运行时候报错如下:org.apache.spark.ml.regression.LinearRegression.train(LinearRegression.scala:176)org.apache.spark.ml.Predictor.fit(Predictor.scala:118)lineReg$.main(lineReg.scala:42)lineReg.main(lineReg.scala)Exception in thread

2021-08-13 17:45:12 1401 2

原创 OOM的三种类型

OOM可能发生的区域主要有以下三个地方1.MetaSpace2.方法栈3.Heap其中MetaSpace和方法栈发生OOM的概率相对较少，Heap中发生OOM的概率较大

2020-11-29 13:22:59 636

原创 kubernet和docker的一些常用命令总结

1.利用镜像busybox运行容器docker run busybox echo "hello world"运行其他镜像docker run <image>#原理,docker会先在本地找对应的镜像,如果找不到就会到对应docker hub上拉取对应的镜像,然后运行构建镜像1.首先必须有DockerFile2.必须有对应的程序3.运行docker build -t 镜像名 .但是这个命令我运行了,并没有生产出对应的镜像列出本地的镜像查看本地存在的镜像docker

2020-08-09 23:27:51 194

原创 kubenet的emptydir和hostDir的区别

生命周期：emptydir：随着pod的创建而创建，随着pod的消亡，而消亡hostPath：对应的数据在节点的某个路径下面，不会随着pod的生命周期而变化所以如果是一些跟节点相关，生命周期比pod更长的，那就用hostPath但是如果是跨节点的，比如下次pod部署在b节点了，那么a节点上的hostPath就不能访问到了，例如a节点上的数据库信息，可能在b节点上就访问不到了...

2020-08-09 23:11:03 263

原创 git的fetch和pull的区别

下面的文档连接对git的fetch和pull的区别进行了介绍,比较容易理解,做个记录https://www.cnblogs.com/ruiyang-/p/10764711.html

2020-08-06 23:40:35 197

原创 origin和upstream的区别

如下连接很清晰的将origin和upstream进行了详细的讲解,可以很好的知道我们使用github和githttps://www.cnblogs.com/baihuitestsoftware/articles/10102828.html

2020-08-06 23:29:07 1406

原创如何将主干的分支合并到分支上(小小感悟)

https://www.cnblogs.com/ailanlan/p/12071884.html注意上文说的,对于初学者来说,我的理解是比如你再d盘的aaa目录下拉取了a分支,然后就在这个目录下切换到master分支,然后拉取远端的master代码,这样这个aaa目录下,就会共存 a分支的代码和master分支的代码,这时候切换到a分支,然后使用merge命令就能把master分支的代码合并进来,并不是我原来想的那样,d盘下,一个aaa目录下载a分支 bbb目录下载master分支,然后到aaa目录下,用

2020-08-06 23:21:13 740

原创 spark rdd model

2020-06-03 23:41:26 306

原创 sparksql process

Spark SQL :SQL 具有普及率高、学习成本低等特点,为了扩大 Spark 的应用面,增加了对 SQL 及 Hive 的支持。Spark SQL 的过程可以总结为:首先使用 SQL 语句解析器(SqlParser)将 SQL 转换为语法树(Tree),并且使用规则执行器(RuleExecutor)将一系列规则(Rule)应用到语法树,最终生成物理执行计划并执行。其中,规则执行器包括语法分析器(Analyzer)和优化器(Optimizer)。Hive 的执行过程与 SQL 类似。...

2020-06-03 23:31:12 272

原创 spark-sql按照分区查询，扫描全表问题定位和解决

spark-sql利用类似如下命令添加了新字段新增字段：use mart_flow_test;alter table detail_flow_test add columns(original_union_id string);在按照分区查询，发现sql并不是只扫描该分区下的文件，而是进行了全表扫描，分析原因，可能是添加了新字段后元数据没有刷新，于是refresh table 表名...

2020-04-24 21:18:24 2258 1

原创条件概率和联合概率

表示两个事件共同发生百的概率。A与B的联合概率表示为 P(AB) 或者P(A,B)，或者P(A∩B)。在概率论中，联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。举例说明：假设X和Y都服从正态分布，那么P{X<4,Y<0}就是一个联合概率，表示X<4,Y<0两个条件同时成立的概率。扩展资料：1、统计独立性当且仅当两个随机事件A与B满足P(A...

2020-04-08 23:46:21 7048

原创机器学习资料网罗汇总

bilibili上面有个老师shuhuai008这个老师讲的好多手推公式都不错,可以看一下:下面的截图就是bilibili的老师的截图,留个传送门给大家(https://www.bilibili.com/video/BV1aE411o7qd)...

2020-04-08 08:41:04 160

原创 HMM和维特比算法

网上看到一篇浅显易懂的讲解HMM和维特比算法的blog,做已收藏https://www.cnblogs.com/fulcra/p/11065474.html

2020-04-08 00:09:17 151

原创维特比算法-浅显易懂(转载)

在知乎上看了一篇对维特比算法的讲解,感觉还不错,分享下https://www.zhihu.com/question/20136144

2020-04-07 08:44:18 241

原创自然语言处理(文本的简单表示方法)

一般简单的有boolean count tf-idf形式,网上发现一篇不错的博文,收藏下https://www.cnblogs.com/carlber/p/12153395.html

2020-03-29 08:49:49 625

原创 spark trouble shooting之过滤掉gzip不能解压的错误文件

简介明了添加如下配置:--conf spark.files.ignoreCorruptFiles=true如果大家对怎么找到这个问题,以及最终解决的全过程感兴趣,请继续往下看:在大数据处理过程中,必然会存在这样的问题,要处理的源文件可能由于网络传输等各种原因导致上传上来的文件不完整,那么遇到这种问题该如何处理呢?如题在处理大数据问题时候,由于读取gzip文件使用的是如下代码来读取的:#...

2020-03-11 23:16:18 627 2

原创 hadoop如何只查某个目录下的文件夹名称

#查看目录oss://tabao-com//day=20200308/ 目录下所有的文件夹名称hadoop fs -ls -R oss://tabao-com//day=20200308/ | grep '^d'分析所有的文件夹都是以d开头的,所以借助管道符号查询所有以d开头的...

2020-03-11 15:53:05 1563 2

原创 spark滥用count方法的后果,去掉count后,性能提升1倍

建好的代码如下val result1 =sparksession.sql("select dxkk")//假设这个sql很耗时,1hval executorBalanced = new BalancedClickhouseDataSource(jdbcLink, properties) val executorConn = executorBalanced.getConnection.a...

2020-03-10 18:29:15 2869 2

原创 sougou for linux

環境：ubuntu 16.4安裝sogou輸入法參考文檔：https://jingyan.baidu.com/article/925f8cb88390f5c0dde056a0.html官方文檔都沒有百度經驗靠譜

2020-03-07 20:35:13 246

原创 Sed替换内容带反斜杠（/）

比如要替换的内容包含/,默认的替换语句是sudo sed -i 's/Asia/Shanghai/UTC/' /etc/timezone由于/Asia/Shanghai 包含 /s语句后的就是分割符，我们用#，替换默认的/分隔符就可以了sudo sed -i 's#Asia/Shanghai#UTC#' /etc/timezone...

2020-01-21 19:45:45 8693

原创 spark写入mongo，性能提升10倍+

原来代码：finalDf.rdd.repartition(100).foreach(itm => { val InsertOne = new Document("app", itm(0)).append("day", itm(1)).append("hour", itm(2)).append("adx", itm(3)) //单条插入： mongoConn.withCo...

2020-01-14 21:29:19 1085

原创 spark假死现象分析

ss.sql( s""" insert overwrite table test.test1 partition(day='$Day', hour) select adx, geo_country as country, connectiontype ...

2020-01-10 22:23:19 1159 1

原创 Missing database name. Set via the 'spark.mongodb.output.uri' or..问题解决

spark数据入mongo报错:User class threw exception: java.lang.IllegalArgumentException: Missing database name. Set via the 'spark.mongodb.output.uri' or 'spark.mongodb.output.database' propertyval conf = n...

2020-01-10 13:14:46 1662 1

原创 CREATE TABLE databasename.t_d11 STORED AS ORC 语句报UnknownHostException: 错误

在阿里云上,由于利用的是临时集群,用的rds的mysql来管理hive元数据,在跑任务时候遇到如下问题:java.lang.IllegalArgumentException: java.net.UnknownHostException: emr-header-1.cluster-41729注意这个 emr-header-1.cluster-41729 ,这是一个ip的域名,于是查看hosts...

2020-01-06 19:21:34 886

typora-setup-x64.rar

netcat.rar

空空如也