想做个有技术的背锅侠
码龄7年
关注
提问 私信
  • 博客:3,816
    3,816
    总访问量
  • 2
    原创
  • 2,272,132
    排名
  • 0
    粉丝
  • 0
    铁粉

个人简介:喜欢也没用,没用也喜欢

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2018-03-10
博客简介:

qq_41818174的博客

查看详细资料
个人成就
  • 获得5次点赞
  • 内容获得0次评论
  • 获得11次收藏
创作历程
  • 3篇
    2019年
成就勋章
TA的专栏
  • 数据分析
    2篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

随机森林的基础知识学习

@随机森林的预测模型随机森林的基础知识随机森林的模型分为分类模型和回归模型,但是无论是针对分类预测还是连续性型的预测,其本质上都是一个一个的分类(划分区间)进行预测的思想,对于分类模型来说,落在不同的树节点的就意味着是不同的输出,最后可以预测出不同的分类类型,而对于回归模型来说,也实质是相当于每个节点都是有固定的数值的,因此当样本量远远大于我们的树节点的时候就会出现预测的结果相同的情况。业务...
原创
发布博客 2019.10.29 ·
639 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive表关联查询,什么情况下会发生数据倾斜,应该如何解决?

**hive表关联查询,什么情况下会发生数据倾斜,应该如何解决?**倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特性、建表时考虑不周等原因造成的reduce 上的数据量差异过大。解决方案:(1)参数调节:hive.map.aggr = truehive.groupby.skewindata=true有数据倾斜的时候进行负载...
翻译
发布博客 2019.03.27 ·
1663 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

文本分析基础知识

@文本处理的方法当下的一些网络文本分析的难点:1)数据是实时动态变化的,比如一些博客、评论、聊天信息等刷新速度特别快,并且数量庞大2)存在这一些短文本的文本数量较少,包含的有效信息也比较小,但是特征集的维数很高,这就导致了很难从中抽取准确的特征来进行文本分类。3)一些新兴的网络词,比如童鞋、屌丝、v587等,包含的文本噪声信息较多。文本的打标即标识出那些比较重要性的关键词概念:词频-...
原创
发布博客 2019.03.25 ·
1514 阅读 ·
2 点赞 ·
0 评论 ·
7 收藏

Linux系统中vim编辑器的安装和使用

发布资源 2018.12.15 ·
pdf

数据挖掘算法

发布资源 2018.03.29 ·
pdf

数据库保护技术

发布资源 2018.03.29 ·
pptx

统计学习导论+基于软件的应用

发布资源 2018.03.29 ·
pdf

金融大数据分析

发布资源 2018.03.11 ·
pdf