自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 python连接kerberos认证的kafka,踩坑(NoBrokersAvailable)

然后再看源码,吐了一口老血,其实在2.0.2的版本里面,是有自动获取版本的操作的,只有连接失败的情况之后才会使用手动设置版本,本来就已经连不上了,设置版本对我这里来说,压根不是根本原因啊。因为原先对kerberos不太熟,疯狂看资料之后,发现自己漏了一个操作,就是kerberos里面有个kinit操作,需要我们在自己机器里面手动kinit,然后才能连接。接着,最不靠谱的地方出现了,全网铺天盖地的出现了加一个api_version =(xxx版本)参数,然后就可以使用了。对应python的库是。...

2022-08-26 16:15:25 3010 4

原创 pyspark 连接远程hive集群配置

今天本地spark连接远程hive集群,参考了网上各种教程,可以使用show 命令,不能使用select,最后直接把配置导入进去,本地直接应用远程环境,竟然可以了步骤:3. 将mysql-connector-java-5.1.32-bin.jar 文件放入spark/jars目录下4. 然后启动spark-shell 测试5. 然后在代码里面测试: 好了,快速结束

2022-06-02 10:33:28 1555

原创 本地pyspark 通过kerberos认证,请求kudu(本地不需要下载kerberos,不用使用shell打开kinit),连接服务器hive

你当然需要在本地装好spark,hadoop,java等环境,保证线上不使用kerberos认证的时候,你的pyspark是可用的。如果不行,请参考我的另一篇文章,当然同样先保证你的环境是OK的,并且环境变量这些都配置好了,同时hosts中的路由也配好了。至于环境变量怎么配置,如何安装,自己查资料吧,我懒得写了写这篇文章主要是百度的可用资料太少,然后这几天刚好碰上我google用不了,再则资料太散乱了,我自己调通之后,就分享出来了。第二步:1. 将hosts中的路由配置好,具体的配置规则问hive小伙伴要2

2022-06-02 10:20:20 1093 3

原创 优化TextRank文本摘要,自定义关键词增加句子的权重

关于textRank的原理,我这边就不多介绍了,搜一下很多,我也不确定自己是否讲的有那些大佬清楚,我们主要关注在优化点痛点:最近在做文章的摘要项目,一天的摘要量估计在300万篇左右,所以直接放弃了seq2seq的生成时摘要方法,主要还是使用深度学习,速度和精度都达不到要求了。采用textrank是一种解决办法1. 目前使用FastTextRank, 速度上基本达到了要求,github链接:https://github.com/ArtistScript/FastTextRank2. 但是我

2021-05-08 18:03:40 1449

原创 anaconda(conda)清华源下载大文件包经常断

·今天新电脑,装了个anaconda, 因为GPU也是新装的,驱动自带的cuda版本conda的源改成阿里源之后,发现很不稳定,而且碰到超过100M的包,就基本崩溃了,又慢,还经常超时,我估计是用的人实在太多了,我下一个cudatoolkit,半天下不下来。最简单的办法就是改源,我是直接改源了,本地创建太麻烦,而且还需要特殊方式。看下图, 换成中科大的:(ps: 上交大的也可以,但是上交大的下载的时候没有进度条,会比较难受,我不确定其他电脑是不是这样的)vi ~/.condarc'''

2021-03-30 13:46:12 1172 1

原创 Pytorch.Dataloader 详细深度解读和微修改源代码心得

关于pytorch 的dataloader库,使用pytorch 基本都会用到的一个库今天遇到了一个问题,我在训练的时候,采用batch_size =2 去训练,最终的loss抖动太大了,看得出来应该是某些样本在打标的时候打的不好导致的,需要找出这些样本重新修正。但是一开始是采用的dataloader默认库。然后输入进去的图像dataset 传出来之后是经过shuffle的,没有办法定位到哪张...

2019-12-05 18:41:50 7063 7

原创 ubuntu 教你如何10分钟搭建深度学习环境

曾经有没有被搭建环境搞得晕头转向?装了无数次什么乱七八糟的死机?各种界面显示不对?一堆的命令要敲?什么进入F1模式啊,什么下载什么乱七八糟的文件啊,nvidia,cudnn,cuda..... 其实基本不需要, 你要下载的就一样,Anaconda。往下看就知道了, 首先搞明白驱动driver和cudnn,cuda的区别和关系。1.驱动和显卡有关系,要根据自己的显卡找到适合自己版本的驱动最重...

2019-11-26 11:15:20 703

原创 FutureWarning: Passing (type, 1) or '1type' as a synonym of type is deprecated; in a future version

安装tensorflowGPU版本的时候,如果遇到下面的错误/home/lhb/venvs/tf114_python3/venv/lib/python3.6/site-packages/tensorflow/python/framework/dtypes.py:516: FutureWarning: Passing (type, 1) or '1type' as a synonym of ty...

2019-08-02 22:24:54 1162

原创 6.0 —随机森林原理(RF)和集成学习(Bagging和Pasting)

我们这边先介绍集成学习什么是集成学习我们已经学习了很多机器学习的算法。比如KNN,SVM.逻辑回归,线性回归,贝叶斯,神经网络等等,而我们的集成学习就是针对某一个问题,我们使用多个我们已经学过的算法,每个算法都会得出一个结果。然后采用投票的方法,少数服从多数,得出最终结果。这就是voting classifier我们看下代码:我们手写的集成学习方法,和scikit-learn ...

2019-07-20 15:49:45 604

原创 6.0——决策树原理DecisionTree(信息熵,基尼系数),决策树解决回归问题,决策树局限性

什么是决策树:决策树以二叉树为原型,是一个非参数学习模型,可以解决多分类,也可以解决回归问题,对数据有很好的解释性。像我们的KNN的缺点就是没有很好的解释性像这样的决策树,我们想到,我们对我们的样本数据,是在哪个维度进行划分的呢?还有在某个维度的哪个值上进行划分的呢?这里就需要用到我们的信息熵和基尼系数了。我们先来看我们的信息熵:看下熵的解释:熵在信息论中表示随机变量不确定...

2019-07-20 13:39:10 2105

原创 5.0-机器学习——SVM支撑向量机原理之线性可分数据

SVM(support vector machine)支撑向量机:什么叫支撑向量机?我们先来看一个对于我们一个2维特征平面如果我们使用逻辑回归的思想,求解出一条决策边界,将样本数据分为两类。在图中我们可以看到,对于图中这样的数据,蓝色两条线的分类对于样本数据来说都是OK的。我们取上面的这条决策边界。然后在添加一个点:新加的这个蓝色点,如果我们决策边界去蓝色线,那么这个新加蓝...

2019-07-19 14:14:18 554

原创 5.1-机器学习——SVM支撑向量机原理之(核函数,RBF,SVM解决回归问题)

我们在了解核函数前,我们先将线性向量机公式变形具体的过程可以自行查阅下资料,我们这里还是主要以介绍核函数为主变形之后的式子:看我们红色方框框出来的,因为这个式子是由一个线性的svm变形过来的,如果我们想对这个式子添加多项式的话。我们以前的思路将我们红框进行变形:现在,我们希望能设计出一个函数,可以直接计算出我们的,而不用先将X(i),X(j)变形,然后再做点乘即:代...

2019-07-19 14:13:55 2206

原创 机器学习之如何评价分类算法(混淆矩阵(confusion Matrix),精准率,召回率,F1 score,PR曲线,ROC曲线,评价多分类算法)

我们一般在sklearn中使用score值来看我们的预测结果,也就是我们的分类准确度使用准确度这个指标在通常情况下是可以的,但是对我们的一些极度偏斜的数据,却会产生问题:比如说 我们有一个癌症预测系统,预测准确度达到了99.9%,如果我们只是用score来看,这个系统算是非常好的系统了但是考虑到,如果是我们的癌症率只有0.1%呢?我们只要不管是否得癌症,我就让这个系统预测没有得癌症,最...

2019-07-18 16:45:02 1454 1

原创 3.0-逻辑回归原理和学习(LR)LogisticRegression(决策边界,多项式逻辑回归,逻辑回归解决多分类问题)

逻辑回归:即可以看做回归算法,也可以看做分类算法。一般当做分类算法来用,解决二分类问题,如果要解决多分类问题,需要自己改进。看下逻辑回归的问题点,对于逻辑回归来说,解决二分类问题。我们需要加入一个sigmoid函数求出我们的概率P,然后将结果分类为1和0两类对于我们的逻辑回归来说,我们也采用梯度下降法的进行模型的构建。所以我们还是需要对我们的损失函数J进行求导操作下面附上推导...

2019-07-18 13:50:20 1538

原创 2.6-模型正则化(Regularization)-限制参数的大小

过拟合是由于对训练模型的过度拟合导致的模型的泛化能力降低,在多项式回归中,我们的degree过大就会导致过拟合模型正则化能很好地解决帮助我们限制参数的大小,从而使我们的模型大大降低过拟合的风险。在线性回归中,我们尽可能让MSE达到最小。如下图加入模型正则化之后,我们的目标函数J就变成了:加入的MSE后面的公式就是我们添加的正则项。在上面公式中,我们让整个公式尽可能...

2019-07-15 16:06:25 2455

原创 解决过拟合的方法,列个标题

过拟合overfitting产生的高方差,有以下的解决思路:1.模型的正则化2.数据降噪,降维3.使用数据验证集(交叉验证)4.增加样本数量5.降低模型的复杂度...

2019-07-15 15:03:35 89

原创 第五篇 2.3PCA和梯度上升法

本文为学习记录,写的不好请大家指正见谅,互相学习,也为自己巩固学习成果包括后续复习所用!首先来看下什么是 PCA(主成分分析法):我们通过一个2个特征的图来理解下,由图中的文字说明我们可以得知:我们的目的是找到一个轴,让样本点空间的所有点映射到这个轴之后,方差最大。在求最大方差前,我们需要做一步操作,让我们所有样本特征的平均值归0,称为demean操作方差最大:能最大程度...

2019-07-15 10:20:26 178

原创 第四篇 2.2-线性回归中使用梯度下降法及原理

本文为学习记录,写的不好请大家指正见谅,互相学习,也为自己巩固学习成果包括后续复习所用!梯度下降法介绍:1.batch gradient descent(批量梯度下降法)在一个二维平面上,和线性回归图像不同,线性回归图像是用特征作为坐标轴,而绘制梯度下降图像的时候,我们将损失函数J作为我们的纵坐标,参数theta作为我们的横坐标,图像如下:在图中我们可以看到,在蓝点中,dJ/d...

2019-07-12 10:59:25 368

原创 第三篇 2.1-线性回归原理,推导,衡量线性回归的指标(MSE,RMSE,MAE,R^2)

本文为学习记录,写的不好请大家指正见谅,互相学习,也为自己巩固学习成果包括后续复习所用!1.简单的线性回归我们先来看图线性回归就是找到一条直线,y=ax+b加入特征值为x,即预测值为y’,实际值为y,线性回归就是找到|y-y'|的最小值,即(y-y')^2的最小值,扩展到所有样本就是找到∑(y-y')^2的最小值也就是找到a和b的值,使得上述算式最小,即对a,b求导...

2019-07-11 15:46:33 1496

原创 第二篇:1.2 ——KNN中数据归一化原理,附数学推导

本文为学习记录,写的不好请大家指正见谅,互相学习,也为自己巩固学习成果包括后续复习所用!1.为什么要用数据归一化样本间的数据由于其中的某几个特征跨度较大,比如下图所示,样本的数据被时间所引导。两个时间之间的跨度较大,肿瘤大小数据相差不大,所以我们考虑距离远近的时候,时间特征对数据的影响就很大,如果我们对时间进行转换,转换成年,我们发现。肿瘤大小对数据的影响就大于时间对数据的影响...

2019-07-11 14:14:18 914

原创 第一篇:1.1-KNN的学习记录—K近邻算法原理和超参数(KNeighborsClassifier)

本文为学习记录,写的不好请大家指正见谅,互相学习,也为自己巩固学习成果包括后续复习所用!1.K近邻算法原理 这个是网上找的图,自己就不制作图了,找了一张只有两个特征的图,简单明了如图所示,横纵坐标分别表示时间和肿瘤大小两个特征值,绿色点为我们需要作出预测分类的值,当我们的k为3的时候(k为超参数,后面会提到),即表示,根据绿色点,找出3个离绿色点最近距离的三个点,如图...

2019-07-11 11:41:19 2070 5

ocr.yaml 下载cuda9.0

深度学习conda环境,直接使用conda env create -f ocr.yaml 安装就可以了,记住要先安装Anaconda之后才能使用,不然的花这个是真没用的

2019-11-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除