自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 2020-12-09

什么是爬虫? 请求网站并提取数据的自动化程序 爬虫的基本流程 1:向服务器发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器的响应。 2:获取响应内容 如果服务器正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML、JSON、二进制文件(如图片、视频等类型)。 3:解析内容 得到的内容可能是HTML,可以用正则表达式、网页解析库进行解析。可能是JSON,可以直接转成JOSN对象进行解析,可

2020-12-09 20:17:43 96

原创 2020-11-10

大数据生态系统 大数据:历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题 新技术:传统方式与技术无法处理大量、种类繁多的数据,需要新的技术解决新的问题。 技术人员:有了问题,有了解决问题的技术,需要大量懂技术的人解决问题。 最佳实践:解决 问题的方法,途径有很多,寻找最好的解决方法。 商业模式:有了最好的解决办法,同行业可以复用,不同行业可以借鉴,便形成了商业模式。 ​HADOOP HDFS: 海量数据存储。 YARN: 集群资源调度。 MapReduce: 历史数据离线计算。 Hive:海

2020-11-10 14:27:20 73

原创 2020-10-27

今天是我选择大数据专业后的第一节课,老师第一节课,在此之前没有学习过相关的东西,了解也是因为我的姐姐是学类似这样的东西。并没有对大数据有什么深入了解,今天老师向我们讲了: Velocity 速度 速率 更快的处理数据 value 价值 (价值密度低 ,过滤出有价值的信息) variety 类型 数据的结构(有结构的数据,半结构数据,无结构数据) volume 体积(非常大。) 老师还普及了一下电脑的容量单位 由于中专的时候学过就不过多的解释了。老师也讲了一些关于大数据的起源,让我认识很多。 对大数据有..

2020-10-27 20:45:29 53 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除