SmartShylyBoy
码龄6年
关注
提问 私信
  • 博客:111,829
    111,829
    总访问量
  • 45
    原创
  • 617,213
    排名
  • 13
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:四川省
  • 加入CSDN时间: 2018-08-16
博客简介:

SmartShylyBoy的博客

查看详细资料
个人成就
  • 获得51次点赞
  • 内容获得3次评论
  • 获得164次收藏
创作历程
  • 2篇
    2020年
  • 34篇
    2019年
  • 18篇
    2018年
成就勋章
TA的专栏
  • new  对象
    1篇
  • java
    6篇
  • linux
    3篇
  • 大数据
    10篇
  • scala
    1篇
  • Currying
    1篇
  • h
    1篇
  • 柯里化
    1篇
  • hive
    3篇
  • 内部表
    1篇
  • 外部表
    1篇
  • 基础
    2篇
  • 建表
    1篇
  • 数据库
    2篇
  • shell
    1篇
  • python基础
    5篇
  • python 爬虫
    2篇
  • 机器学习
    10篇
  • 数据结构
    1篇
  • 计算机基础
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

java @注解 和 python @函数装饰器

一直在用python和java的@标记一个函数,他俩有啥区别呢?今天把我在笔记上的内容分享出来,供大家参考先写Javajava中的@XX 叫Annotation 也就是注解。1、它存在的意义什么?1、让编译器检查代码2、注解像xml一样给类、方法注入信息2、他是如何实现?https://www.jianshu.com/p/89f4c9d7d37bpython装饰器模式和上一节说到的代理模式非常相似,可以认为,装饰器模式就是代理模式的一个特殊应用,两者的共同点是都具有相同的接口,不同点是
原创
发布博客 2020.11.12 ·
446 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

java基础-- new 一个对象的过程

java new 一个对象的流程大体如下一、类加载(方法区) java是使用双亲委派来进行类的加载的双亲委托模型的工作过程是:如果一个类加载器(ClassLoader)收到了类加载的请求,它首先不会自己去尝试加载这个类,而是把这个请求委托给父类加载器去完成,每一个层次的类加载器都是如此,因此所有的加载请求最终都应该传送到顶层的启动类加载器中,只有当父类加载器反馈自己无法完成这个加载请求(它的搜索范围中没有找到所需要加载的类)时,子加载器才会尝试自己去加载。使用双亲委托机制的好处是:能够有效确保
原创
发布博客 2020.11.12 ·
1876 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

练习题

1. 互斥量用于线程的互斥,信号量用于线程的同步。这是互斥量和信号量的根本区别,也就是互斥和同步之间的区别。互斥:是指某一资源同时只允许一个访问者对其进行访问,具有唯一性和排它性。但互斥无法限制访问者对资源的访问顺序,即访问是无序的。同步:是指在互斥的基础上(大多数情况),通过其它机制实现访问者对资源的有序访问。在大多数情况下, 同步已经实现了互斥,特别是所有写入资源的情况必定是互斥的。 ...
原创
发布博客 2019.07.01 ·
352 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ML binning

一、分箱:数据分箱(也称为离散分箱或者分段)是一种数据预处理的方法,用于减少次要观察误差的影响,是一种将多个连续值分为较少数量的分箱的方法。1.1离散化:,把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:原数据:1,999,100000,15;处理后:1,3,4,2;原数据:{100,200...
转载
发布博客 2019.06.19 ·
361 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

降维

一、为什么要降维?举个例子两个特征“千克”,“磅”。可以发现,虽然是两个变量,但它们传达的信息是一致的,即物体的重量。所以我们只需选用其中的一个就能保留原始意义,把2维数据压缩到1维,这样的好处减少矩阵大小,在集合中就是减少维度,减少计算量,减少共线性。二、降维技术降低数据维度的方法主要有两种仅保留原始数据中最相关的变量(特征选择)寻找一组较小的新变量,其中每个变量都是输入变量的组合...
原创
发布博客 2019.06.13 ·
1890 阅读 ·
4 点赞 ·
1 评论 ·
16 收藏

python数据结构、numpy、pandas、matplotlib

与Python列表不同,NumPy受限于所有包含相同类型的数组。如果类型不匹配,NumPy将尽可能向上转换(此处,整数向上转换为浮点数)网址https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/02.01-Understanding-Data-Types.ipynbhttps://github....
原创
发布博客 2019.06.12 ·
227 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ML 9day 开始无监督学习 聚类算法 K-means clustering.

先看一个flush动画http://shabal.in/visuals/kmeans/6.html如图所示,数据样本用圆点表示,每个簇的中心点用叉叉表示。(a)刚开始时是原始数据,杂乱无章,没有label,看起来都一样,都是绿色的。(b)假设 数据集可以分为两类,令K=2,随机在坐标上选两个点,作为两个类的中心点。(c-f)演示了聚类的两种迭代。先划分,把每个数据样本划分到最近的中心点 那一...
原创
发布博客 2019.06.12 ·
282 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ML 100day eightday(random forest)

随机森林是有监督的集成学习模型(ensemble—learning model)主要用于分类和回归。随机森林算法分为两步。第一步是创建决策树,第二步是根据第一步中决策树的分类器结果做出决策,随机森林预测过程:1、使用一个随机创建的决策树的规则来预测测试特征的结果(目标)2、计算每个预测目标的票数3、获得票数最高的预测目标视为随机森林算法的最终预测核心代码:#创建分类器对象from s...
原创
发布博客 2019.06.12 ·
158 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

回归和分类的区别

回归是定值 分类是定性Q:分类与回归的区别就是离散和连续的区别吗?A:这两者的区别完全不在于连续与否啊,而在于损失函数的形式不同啊!https://www.zhihu.com/question/21329754...
原创
发布博客 2019.06.11 ·
321 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据倾斜问题

一、数据倾斜的原因:核心原因是reduce段数据分布不均匀,导致少量reduce子任务未完成二、解决方案:2.1调节参数hive.map.aggr = true 在map端部分聚合,相当于combinerhive.groupby.skewindata = true ,数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR JOB,map输出的结果集合会随机分不到redu...
原创
发布博客 2019.06.11 ·
547 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

b树和b+

B和B+树的区别在于,B+树的非叶子结点只包含导航信息,不包含实际的值,所有的叶子结点和相连的节点使用链表相连,便于区间查找和遍历。
原创
发布博客 2019.06.10 ·
189 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

模型评估之混淆矩阵(confusion_matrix)

在前面的文章中我们讲到了回归模型和分类模型的评估指标,区分了准确率和精确率的区别,并且比较了精确率和召回率内在的联系。本篇文章我们再来学习另外一个评估方法,即混淆矩阵(confusion_matrix)。在讲矩阵之前,我们先复习下之前在讲分类评估指标中定义的一些符号含义,如下:TP(True Positive):将正类预测为正类数,真实为0,预测也为0FN(False Negative):将...
原创
发布博客 2019.06.10 ·
5672 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

ML 100day servenday(SVM )

SVM(Support Vector Machines)支持向量机一、什么是SVM?他是个有监督的机器学习算法,和KNN一样可用于分类和回归分析,最主要是用在分类问题中。在这个算法中,更具特征值,构建n维空间(其中n即是特征的数量),吧每个数据投影到此空间内。二、数据如何分类?通过查找一个超平面,把数据区分为两类。换句话说,算法输出一个最佳超平面,用于数据分类三、什么是最佳超平面对SVM...
原创
发布博客 2019.06.06 ·
169 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ML 100Day sixday KNN算法

1、KNN算法:k最近邻(K-NearestNeighbor,KNN)分类算法的核心思想是如果一个样本在特征空间中的k个最相似(即特征空间中的最临近)的样本中大多数属于某一个类别,则该样本也属于这个类别。KNN算法不仅可以用于分类,还可以用于回归,通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值付给该样本,作为预测值最后一步是投票选出出现频率最大的“”"NearestNeighb...
原创
发布博客 2019.06.06 ·
187 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

啥是回归?

今天突然想搞清楚这个问题,遂搜索了一下,现总结如下。这一概念的英文是“regression”,是由高尔顿(Galton)在1886年的论文Regression towards Mediocrity in Hereditary Stature中提出的。论文基于对父亲和儿子身高的研究,发现子辈的平均身高是父辈平均身高与父辈所在族群的平均身高的加权平均和。子辈的平均身高 = 父辈平均身高 * 权重...
原创
发布博客 2019.06.04 ·
622 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ML 100day fiveday(逻辑回归、数据归一化、评估预测、matplotlib数据展示)

***注意一点就是,训练模型的参数是一批***import numpy as npimport matplotlib.pyplot as pltimport pandas as pddataset = pd.read_csv(‘C:\Users\Administrator\Desktop\ml 100day\Social_Network_Ads.csv’)dataset.head()...
原创
发布博客 2019.06.04 ·
534 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

ML100day_fourDay 逻辑回归

原创
发布博客 2019.06.03 ·
157 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

100-Days-Of-ML threeday(多元线性回归、特征选择)

第三天学习的是多元线性回归一、前提(想要有一个成功的回归分析,确认这些值很重要):1、线型:自变量和因变量的关系应该是线性的,也就是说特征值和预测值是线性相关的2、保持误差项的方差齐性(常数方差): 也就是误差项的分散(方差)必须相等3、多元正态分布: 多元回归假定残差符合正态分布4、缺少多重共线性: 假设数据有极少甚至没有多重共线性。当特征(或自变量不是相互独立的时,会引发多重共线性...
原创
发布博客 2019.06.03 ·
558 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

100-Days-Of-ML twoday

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdataset = pd.read_csv(‘C:\Users\Administrator\Desktop\ml 100day\MLDayTwoData.csv’)#创建X和Y,注意一点dataframe切片包左不包右X = dataset.iloc[...
原创
发布博客 2019.06.03 ·
201 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

100-Days-Of-ML oneday

这个博客是基于github上项目,Avik Jain致力于通过这个项目,让机器学习入门者学习机器学习的理论与实战,话不多说,现在开始:https://github.com/Avik-Jain/100-Days-Of-ML-Code注意:1、pandas包生成的DF使用切片方式不同于python中的切片([:],包左不包右),DF.loc[0:3] 一共是四行2、pandas中的df.co...
原创
发布博客 2019.05.28 ·
395 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多