m0_51988444
码龄5年
求更新 关注
提问 私信
  • 博客:2,696
    2,696
    总访问量
  • 4
    原创
  • 0
    粉丝
  • 0
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:天津市
加入CSDN时间: 2020-10-27
博客简介:

m0_51988444的博客

查看详细资料
个人成就
  • 获得2次点赞
  • 内容获得1次评论
  • 获得1次收藏
  • 博客总排名1,980,565名
创作历程
  • 4篇
    2020年
成就勋章
TA的专栏
  • 笔记
    3篇

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 0

TA参与的活动 0

创作活动更多

王者杯·14天创作挑战营·第2期

这是一个以写作博客为目的的创作活动,旨在鼓励码龄大于4年的博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见https://bbs.csdn.net/topics/619735097 2、文章质量分查询:https://www.csdn.net/qc 我们诚挚邀请你们参加为期14天的创作挑战赛!

66人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

2020-12-09

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统
原创
发布博客 2020.12.09 ·
118 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS知识学习

***HDFS简介及基本概念***HDFS集群有两类节点,并以管理者-工作者模式运行,即一个NameNode(管理者)和多个DataNode(工作者)。一个HDFS cluster包含一个NameNode和若干的DataNode,NameNode(以下简称nn)是master,主要负责管理hdfs文件系统,具体地包括namespace管理(其实就是目录结构),block管理(其中包括 filename->block,block->dat...
原创
发布博客 2020.11.17 ·
158 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

2020-11-10

hadoop hadoop是一个由Apache基金会所开发的分布式系统基础架构。它可以使用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。hadoop的框架最核心的设计就是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。...
原创
发布博客 2020.11.10 ·
112 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据技术导论

作为大一新生,我报了大数据专业,如我所想的那样,它深深吸引到了我,今天第一次接触,学习了大数据的概念和特征,大数据是指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,大数据具有4V特征,![在这里插入图片描述](https://img-blog.csdnimg.cn/20201027161541593.jpg?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNz.
原创
发布博客 2020.10.27 ·
2308 阅读 ·
2 点赞 ·
1 评论 ·
1 收藏