自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Hadoop的前世今生

一. Hadoop的诞生大数据核心问题:分布式存储和分布式处理1.Google“三驾马车”——GFS、Big Table、Map Reduce2.Hadoop的核心组件——HDFS、MapReduce、Yarn二、Hadoop生态中各组件的应用场景和解决的问题1.大规模数据的交互查询Hive、Spark SQL、Impala2.基于大规模历史数据的批处理MapReduce、Hive3.基于实时数据的流处理Storm、Spark Streaming4.基..

2020-08-09 15:21:13 315

原创 HIVE优化实践

一、JOIN多表关联1.提前过滤——使用谓词下推使用from子句方式的语句结构(即select子句);注意:当多表关联使用inner join或left join时,主表的过滤条件可不用select子句的形式放在from后,而是放到最后的where条件里同样可使谓词下推生效。2.提前聚合在多表关联时涉及数据聚合,尽量将低粒度的子句提前聚合后再关联,而非发散关联后放到最后聚合。3.小表在前HIVE会自动将前面的小表直接放入缓存中,不用开启MAPREDUCE任务。开启map jo

2020-07-14 20:31:59 306

原创 软件开发相关工具集

1.MinGW and MSYSMinGW提供了一个完整的开源编程工具集,适用于本机MS-Windows应用程序的开发,并且不依赖于任何第三方C-Runtime DLL。(它确实依赖于Microsoft自己提供的许多DLL,作为操作系统的组件;其中最值得注意的是MSVCRT.DLL,即Microsoft C运行时库。此外,线程应用程序必须附带可自由分发的线程支持DLL,作为MinGW本身的一部...

2019-02-24 13:08:04 212

原创 Cython的特点与作用

1.Cython源于Pyrex,Cython项目借助于源代码编译器将Python代码转换为同等的C语言,这是在CPython(主Python运行环境主要是CPython,由C语言编写而成。)运行环境下完成的,但 具有C语言的编译速度及直接调用C库的能力;同时它也保留了Python源代码的接口,这使得Cython可直接被Python代码使用。以上可以推出Cython的两个用途:(1)以快速的...

2019-01-29 15:32:01 1280 1

原创 操作系统之死锁

操作系统之死锁问题1.什么是死锁?2.死锁发生的必要条件?3.解决死锁的方案?1.什么是死锁?两个进程各自占用着对方所需要的资源才能释放所占用的资源继续执行下去,此时两个进程进入了无限等待中。。。2.死锁发生的必要条件?死锁发生必须同时具备以下三个条件:存在对不可共享资源的竞争;这些资源是在不完整的基础上请求的,也就是说,一个进程接受了某些资源后,稍后还将请求其他的资源;一个资...

2018-12-13 22:21:01 175

原创 Python语言编程之学习问题集合

1.为什么C语言较Python等脚本语言编写计算密集型任务效率更高,而Python等脚本语言编写IO密集型任务较C语言效率更高?    答:可能的解释a:IO密集型任务比如WEB服务,这类服务的开发代码可能会经常性的更改、更新,所以需要开发效率较高的代码,即代码量少,码起来较快。2.在进行TCP编程,调用socket进行通信时,客户端发送数据出去,一定会等到服务器传送数据回,才会接着执行后...

2018-12-07 14:05:32 167

原创 《数理统计与数据分析》弃学指南

笔者前言:所有内容只是列出学习中遇到的重点或难点知识,仅为方便记忆。第一章:概率1.概率测度:样本空间上的概率测度是定义在子集上的实函数。如果是相互不交的,那么             (即在考虑将两事件概率相加时,看这两事件是否不相交) 2.加法定律:3.排列中推论:n个元素的有序排列个数是4.似然(likelihood):观测结果发生的概率是待估参数n的函数,称...

2018-09-19 10:14:25 1541 1

原创 Numpy数组中数据类型的转换

转化数组x中的数据类型,使用 .astype()方法:>>> x = np.array([1, 2, 2.5])>>> xarray([ 1. , 2. , 2.5])>>> x.astype(int)array([1, 2, 2])

2018-03-22 12:39:43 14332

原创 从txt文件读取数据,数据的编码及字符串的编码问题

此篇关于用open()方法打开txt文本文件,并从中读取数据,数据的编码形式转化与注意事项的博文旨在总结博主曾遇到的相关问题,并记录下来。文本实例为中文停用词库stopwords.txt,文本为UTF-8编码。这里记述两种打开并读取中文文本的操作。The first method:import osstopwords_path='stopwords.txt'kk=[]with open(s...

2018-03-19 14:20:33 4585

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除