自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 windows的IDEA、Pycharm

ideahttps://blog.csdn.net/CZXY18ji/article/details/103207771?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-taskhttps://blog.csdn.net/JENREY/article...

2020-03-29 18:05:19 267

转载 Redis集群搭建最佳实践

要搭建Redis集群,首先得考虑下面的几个问题;Redis集群搭建的目的是什么?或者说为什么要搭建Redis集群?Redis集群搭建的目的其实也就是集群搭建的目的,所有的集群主要都是为了解决一个问题,横向扩展。在集群的概念出现之前,我们使用的硬件资源都是纵向扩展的,但是纵向扩展很快就会达到一个极限,单台机器的Cpu的处理速度,内存大小,硬盘大小没办法一直满足需求,而且机器纵向扩展的成本是...

2020-03-29 12:57:19 331

原创 运行hive遇到的一些问题

1. Transform问题不能这样用 select usrid, movieid, rating, transform(ts) using “python stamp2date.py” as date from rating_table; 只能这样用 select transform(usrid, movieid, rating, ts) using “python stamp2date.p...

2020-03-26 21:04:05 634

原创 下载和安装与使用git

下载git,腾讯云https://pc.qq.com/detail/13/detail_22693.html安装githttps://blog.csdn.net/gxx_csdn/article/details/78905231一直下一步保持默认选项进行安装即可, 好吧,我把我的git卸载了再重新安装一遍,被自己蠢到了=.=。 【注:如果按照默认的选项进行安装,不需要自己配置环境变量,...

2020-03-26 21:01:14 370

原创 使用pycharm的pyspark的一些错误

1. key not found: _PYSPARK_DRIVER_CALLBACK_HOST报错https://blog.csdn.net/qq_40454655/article/details/1002245892. TypeError: namedtuple() missing 3 required keyword-only arguments: 'verbose', 'ren...

2020-03-26 20:59:28 3330 1

原创 常见的一些命令与问题

1. mysql -uroot -p // 启动mysql2. su – // 切换超级用户(root和普通用户并不共享所有文件,即在普通用户中配置之后,root中可能不是那种配置)su // 赋予key有root权限su -l key // 从root返回key用户3. /mnt/hgfs/share/ 共享文件夹路径https://www.cnblogs.com/broke...

2020-03-26 20:58:27 778

原创 回归算法(三):Softmax回归

四、Softmax回归解决多分类问题。1. 换个思路推导出softmax函数在《回归算法(二):逻辑回归》中提到,P(yi=1|xi)依赖于exp(wxi),用一个参数向量w来推测yi属于1的概率,exp(wxi)大则说明yi属于1的概率大,exp(wxi)小则说明yi属于1的概率小;只不过在二分类问题中,yi属于1的概率小,则yi不属于1,而属于另一类(yi=0)。但在多分类问题...

2020-03-26 15:32:40 816

原创 用人话理解L1和L2正则化

https://blog.csdn.net/jinping_shi/article/details/52433975

2020-03-26 13:29:04 250

原创 回归算法(二):逻辑回归

三、逻辑回归解决二分类问题。

2020-03-26 12:17:02 528

原创 回归算法(一):线性回归

以下所说的样本数量是 M,特征数量是 N一、一元线性回归模型输出:;w是特征权重,b是偏置参数如何拟合出最佳的曲线:最小化即可。以上是高中知识。二、多元线性回归模型输出:公式转换:记住这个结论:累加可以变成一个行向量x列向量。对下面的公式推导很有帮助。为了让公式更加简洁,为什么不把b放进向量里呢?于是有:得:所以有:如何拟合出最佳曲线...

2020-03-25 17:55:26 1163

原创 决策树(ID3、C4.5、CART)与随机森林

1. 什么是决策树?根据一系列特征,最终决定结果的树,叫做决策树。2. 如何构建决策树?方案一:ID3算法首先,说明一些重要公式:信息量: 信息熵: 信息熵期望:;s是未分裂前的节点,sj是按照属性 V 分裂后属于各属性值 j 的节点信息熵是事物不确定性的度量标准。信息熵越大,不确定性越大,混乱程度越大。算法流程:(1)给定样本,先将特征离散化...

2020-03-25 12:54:02 2525

原创 用人话理解Kmeans聚类

Kmeans聚类1. 层次聚类 vs 非层次聚类 不同类之间有无包含关系2. 硬聚类 vs 软聚类 硬聚类:每个对象只属于一个类 软聚类:每个对象以概率属于某个类。比如:样本1:A-0.8,B-0.1,C-0.13. 各样本之间的距离 ① 将特征向量化,每个样本表示为高维空间的一个点 ② 计算各个点之间的距离(距离与相似度成反比)...

2020-03-24 10:53:58 367

原创 机器学习:分类问题的评价指标

分类预测类别 y1 y2 实际类别 y1 C11 C12 y2 C21 C22 准确度精确率召回率F值β越小,越倾向于精确率;β越大,越倾向于精确率和召回率的混合。最常见是β=1,此时就是常见的AUC欢迎转载,转载请标明出处。...

2020-03-24 10:53:44 599

原创 机器学习评测标准:AUC

机器学习评测标准:AUCAUC的解释:正样本排在负样本之前的概率 ROC曲线与FP_rate围成的面积【ROC曲线:横坐标是FP_rate(假正率),纵坐标是TP_rate(假负率)】要求解AUC避免不了要画ROC,实质上只是求出ROC各点的坐标,那如何画ROC曲线呢?将样本按照预测分数从大到小排列:sample label predict 1 1 ...

2020-03-23 16:44:33 705

原创 用人话理解朴素贝叶斯

用文章分类解释一下朴素贝叶斯公式:X:文章 ----->xj:文章的词 将P(X)转换成P(xj),即P(X)是特征词在词库中出现的概率 P(yi):这个类别的先验概率 P(xj|yi):在yi类别的文章中xj这个特征词出现的概率 P(yi|X):在这些词的前提下,文章属于类别yi的概率如何判断这篇文章是属于yi还是y2?比较P(y1|X)和P(y2|X)...

2020-03-23 15:46:41 537 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除