![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
半九拾
凡你能说的,你说清楚。凡你说不清楚的,留给沉默。
展开
-
python读取大文件
read(size=-1)Read up tosizebytes from the object and return them. As a convenience, ifsizeis unspecified or -1, all bytes until EOF are returned. Otherwise, only one system call is ever made. Fewer thansizebytes may be returned if the operating sys...原创 2020-10-21 11:45:18 · 236 阅读 · 1 评论 -
安装一个单节点的HADOOP
对于数据科学刚入门的新人来说,一个单节点的HADOOP平台的搭建是比较重要的.他能帮助我们认识HADOOP的结构,更深入的理解这个平台的工作原理.如果你也是windows操作系统,那么请跟我一起.或可从此处先了解hadoop在做什么:https://mp.weixin.qq.com/s?__biz=MzIzMTE1ODkyNQ==&mid=2649411054&...原创 2019-02-20 14:39:34 · 374 阅读 · 0 评论 -
安装一个多节点的Hadoop集群
为什么我们看了很多资料还是不知道hadoop 到底以什么方式工作?为什么我们按照各种版本安装部署hadoop 中途总是困难重重? 之前我总结了如何安装一个单节点的hadoop。但hadoop毕竟是分布式计算平台。我们新手的起码入门标尺-----应该是在多个计算机之间搭建好集群。所以我紧接着写这一篇文章。 我们回顾一下hadoop的整体结构: 图片来源:https://b...原创 2019-02-21 16:18:41 · 288 阅读 · 0 评论 -
python3爬虫模拟登录爬取豆瓣电影数据
前面说一些背景大佬万福,若有高见,还请不吝赐教.折腾了一天半,总算解决了豆瓣需要登录和输入验证码才能继续爬数据的问题.故事是这样的,我有一份媒资数据表,表里面都是影片数据,包括:导演\演员\影片类型等等.但是这份数据表的数据缺失太多了,也没有对应上最新的豆瓣评分.为了建立影片之间的相互关系,需要尽可能的补充影片的各项属性.于是,爬取豆瓣数据来丰富该数据表成为首选解决方案.具体的实现思路,...原创 2019-01-16 16:42:27 · 5297 阅读 · 16 评论 -
机器学习中距离和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则:d(x,x) = 0 // 到自己的距离为...转载 2018-12-27 09:38:35 · 479 阅读 · 0 评论 -
spark学习随笔(一)
**从java到RDD**你会java吗?不会?赶紧去学习吧。学好了,就可以学习spark啦。练习:构造一个1-5的List,把他们打印出来。//构造一个ListList<Integer> input = Arrays.asList(1, 2, 3, 4, 5);打印写法1for (int i = 0; i < input.size(); i++) {原创 2018-10-11 15:57:05 · 237 阅读 · 0 评论