大数据
冰封夕阳666
努力是一种生活态度,与年龄无关
展开
-
Spark-sql执行时资源不够,如何对参数进行配置?
aa.hql文件中放的是你的sqlspark-sql-f aa.hql--executor-memory8g--executor-cores4--num-executors20原创 2019-12-19 17:02:01 · 1060 阅读 · 2 评论 -
找出1T文件中的重复行(用单机和大数据的技术分别实现)
场景需求:从1T文件中找出重复行,在这1T文件中只有两行数据是一样的,从单机跟大数据的视角如何解决这个问题?单机思想:假设你的计算机可用内存为500M,所以最少需要把这个文件拆成2000份来处理。怎么才能把相同的行放到一个文件中呢?这时我们可以采用 每行做hash,取得的值再对2000取模,即可以得到 值为 0 ~ 1999 的文件(2000个文件)。这里我们需要注意的是,不同...原创 2019-10-30 23:45:38 · 1210 阅读 · 0 评论 -
netstat的使用
netstat可以查看该机器上所有的网络套接字的连接情况,如果你想查看你的某一个web服务是否已经启动或者你想看这个web服务的进程号,都可以使用该命令。-a:列出所有的网络套接字链接 -t:列出所有的tcp链接 -u:列出所有的udp链接 -n:默认情况下netstat会利用反向域名解析技术对ip进行解析,显示对应的主机名,使用此命令会禁止反向域名解析 -l:只列出监听中的链接 -...原创 2019-09-11 14:36:24 · 164 阅读 · 0 评论