自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (9)
  • 收藏
  • 关注

原创 吴恩达课程

课程名称:Machine Learning作者:Andrew Ng(吴恩达) 中文: http://deeplearning.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B 英文: http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLear

2017-11-24 21:58:07 804

转载 coursera视频网速慢或者无法观看的解决办法

参考 https://www.zhihu.com/question/29433255修改hosts文件,地址如下: C:\Windows\System32\drivers\etc,(以文本格式打开hosts就好)加上如下链接 52.84.246.72 d3c33hcgiwev3.cloudfront.net保存修改后的文件。打开命令行,输入如下命令 ipconfig/flushdns也可

2017-11-24 21:09:43 22594 5

原创 网络爬虫初试

爬取腾讯漫画的一个例子# encoding: utf-8from __future__ import print_functionfrom __future__ import unicode_literalsimport requestsimport base64import reimport jsonimport osrequestSession = requests.session

2017-11-24 08:15:43 1115

原创 带参数的装饰器

回顾普通的装饰器def outer(func): def wrapper(*args,**kwargs): #装饰后的方法 print("before func") wrapper_result=func(*args,**kwargs) print("after func") return wrapper_result

2017-11-23 19:16:56 10034 1

转载 简单 12 步理解 Python 装饰器

转载 http://python.jobbole.com/85056/1. 函数2. 作用域>>> dir()['__builtins__', '__doc__', '__name__', '__package__']使用dir()可以看到初始时存在的全局变量>>> a_string='this is a global var'>>> def foo():... num=100..

2017-11-23 15:44:26 273

转载 Linux修改主机名

1、查看主机名使用命令:hostname或uname –n2、临时修改主机名使用命令:hostname 新主机名不过采用这种方式,新主机名并不保存在系统中,重启系统后主机名将恢复为原先的主机名称。3、永久修改主机名在Ubuntu系统中永久修改主机名也比较简单。主机名存放在/etc/hostname文件中,修改主机名时,编辑hostname文件,在文件中输入新的主机名并保存该文件即可。重启系统后,参照

2017-11-22 12:25:57 146

转载 「蓝光」「720/1080p」「HR-HDTV」等视频制式都是什么意思?清晰度对比如何?

内容整理自https://www.zhihu.com/question/20106926/answer/24733203网络高清视频产生的流程1.电影公司拍好电影后(电影筹备到实景过程叫做前期和中期)–>做后期(比如加入电脑特效,配音同步等)–>剪辑成电影视频文件–>拷贝到专用的储存器材,这个叫做母盘.是一部电影制作完成后最原始的部分.一般人不能拥有.2.然后这个母盘分别制作两个部分:一个是电影院

2017-11-21 22:53:31 4890 1

转载 电影发烧友必备知识-720P、1080P、4K的区别

随着技术的进步,现在的影视作品的清晰度也越来越高,观众的体验也越来越好,普清的电影基本没人看了,尤其是影视爱好者现在都是看1080P或蓝光原盘、4K。目前主流清晰度主要分为720P(高清)、1080i 、1080P(全高清)、2K、4K。720P分辨率为1280*720,长宽比16:9,P是Progressive逐行扫描的的意思。720P是一种在逐行扫描下达到1280×720的分辨率的显示格式。视频

2017-11-21 22:08:38 11200 1

原创 Ubuntu下视频播放器选择

安装命令: sudo apt-get install smplayer 再安装解码器:   安装win32codecs包   如果是intel的CPU   代码:   sudo apt-get install w32codecs   如果是64位 CPU   代码:   sudo apt-get install w64codecs

2017-11-21 12:55:11 29217 4

转载 6.2 开发YARN的应用程序

6.2 开发YARN的应用程序  YARN能引入其他的计算模式到Hadoop中。Hadoop 2.x、MapReduce、Pig和Hive都有AM的库和对应的客户端。开发人员可以使用YARN API编写自己的应用并运行在现有的Hadoop框架内。同样,企业如果已经有大量的数据集在HDFS中,也可以编写自定义的应用来使用它们,而不需要提供新的集群或者迁移已有的数据。  Storm是一个已经移

2017-11-16 12:37:15 1214

转载 6.1 YARN的架构

6.1 YARN的架构  下图展示了基于YARN的集群的架构,这个集群的模块主要有以下5种类型。资源管理器(Resource Manager,RM):每个集群里面都有一个RM守护进程,专门负责集群中可用资源的分配和管理。节点管理器(Node Manager,NM):每个节点都有一个NM守护进程,负责节点的本地资源管理。在RM中,NM代表本地节点。Application Master(

2017-11-16 10:37:01 234

转载 5.4 压缩

5.4 压缩  为了节省存储空间和网络数据传输量,我们会反复提到压缩这个问题。当处理大量数据时,只要有办法减少存储空间和网络数据传输量,就能在速度和成本两方面给予效率提升。压缩就是这样一种策略,能帮助基于Hadoop更高效。  所有的压缩技术都在压缩速度和压缩效率之间进行了折衷。压缩率越高,压缩速度越慢,反之亦然。每种压缩技术都可以通过调整来权衡以上两个方面。例如,gzip压缩工具提供了选项-1到-

2017-11-16 09:46:24 237

转载 5.3 文件格式

5.3 文件格式  有很多文件格式自身也是数据结构。在Hive那章中,我们介绍了ORC文件——优化记录列式文件存储。Hadoop还支持其他一些流行的文件格式。5.3.1 Sequence文件格式  Sequence文件是包含二进制键值对的一种文件格式。Sequence文件中的每一条记录都含有一个键和键对应的值。Sequence文件把多个较小的文件合并成单个较大的文件,这样可以缓解Had

2017-11-15 22:09:55 517

转载 5.2 Avro序列化

5.2 Avro序列化  Avro是一个流行的序列化框架,其主要特点如下:支持多种数据结构的序列化。支持多种编程语言,而且序列化速度快,字节紧凑。Avro代码生成功能是可选的。无需生成类或代码,即可读写数据或使用RPC传输数据。  Avro使用schema来读取和写入数据。schema有助于简洁标识序列化后的对象。在Java序列化中,对象类型的元数据会被写入序列化后的字节流中,

2017-11-15 16:04:47 469

转载 5.1 Hadoop数据序列化

5.1 Hadoop数据序列化  尽管我们看到的数据是结构化的形式,但数据的原始形式是序列化的比特或比特流。数据以这种原始形式通过网络传输,然后保存在RAM或其他持久性存储媒体中。序列化过程就是把结构化的数据转换为原始形式。反序列化过程则相反,是把数据从原始比特流形式重建为结构形式。  Hadoop中不同的组件使用远程调用(Remote Procedure Call,RPC)进行交互。在发送调用函数

2017-11-15 15:00:13 406

转载 2.6 数据连接的处理

2.6 数据连接的处理  在MapReduce中,连接可以在Map任务中完成,也可以在Reduce任务中完成。前者被称为Map侧的连接,后者被称为Reduce侧的连接。2.6.1 Reduce侧的连接  基本的原理是,在每条记录添加一个标签指明数据的来源,并在Map任务中提取连接键。Reduce任务收到同一个连接键的所有记录并执行连接操作。如果参与连接的数据集非常小,可以通过一个旁路通

2017-11-15 12:56:01 148

转载 2.3 Reduce任务

2.3 Reduce任务  Reduce任务是一个数据聚合的步骤。如果Reduce任务的数量没有指定,默认值为1。只执行1个Reduce,可能会面临这个Reduce节点负载过大的风险,而使用过多的Reduce任务则意味着复杂的洗牌处理(shuffle),并使输出文件的数量激增,从而对NameNode造成很大的压力。想要确定一个最优的Reduce任务的数量,关键是要理解数据分布和分片函数。

2017-11-15 11:49:13 348

转载 2.2Map任务

2.2 Map任务  Map阶段的效率是由作业的输入数据的特点决定的。我们已经知道,过多的小文件会出现大量的分片,从而导致Map任务的激增。另一个需要特别注意的重要统计项是Map任务的平均运行时间。太多或者太少的Map任务都会对作业的性能产生不利影响。关键时让这两者达到一个平衡点,二这又取决于应用和数据本身。根据实践总结的一条经验法则是:单个Map任务的执行的时间大约保持在1至3分钟。2.

2017-11-14 22:59:52 538

转载 2.1MapReduce输入

2.1MapReduce输入  MapReduce作业依赖于Map阶段为它提供原始数据的输入,这个阶段提供了能获得的最大并行度,因此它的智能化对一个作业的提速至关重要。数据被分成块(chunk),然后Map任务对每块数据进行操作。每块数据被称为InputSplit。[//后面称分片]Map任务需要在每个InputSplit类上进行操作。还有其他两种类,InputFormat和RecordRea

2017-11-14 11:59:29 472

转载 实验9 MapReduce-分布式缓存

9.1实验要求    假定现有一个100GB的大表big.txt和一个1MB的小表small.txt,请基于MapReduce思想编程实现判断小表中的单词在大表中出现次数。所谓的“扫描大表,加载小表“。由于实验中没有100GB这样的大表,甚至1MB的小表都没有,因为本实验采用模拟方式,所以用少量数据代表大文件big.txt,更少量数据代表small.txt.9.2实验BigAndSma

2017-11-12 20:23:00 512 1

转载 实验7 MapReduce-计数器

7.1概述

2017-11-12 14:46:30 545

转载 实验6 MapReduce-二次排序

6.1实验原理首先需要认识到一点就是MR默认会对键进行排序[https://www.cnblogs.com/acSzz/p/6383618.html]Spill过程          在collect阶段的执行过程中,当内存中的环形数据缓冲区中的数据达到一定发之后,便会触发一次Spill操作,将部分数据spill到本地磁盘上。SpillThread线程实际上是kvbuffer缓冲区

2017-11-12 14:05:42 730

转载 实验8 MapReduce-Join操作

8.3.1概述对于RDBMS中的Join操作,写SQL的时候要十分注意细节,稍有差池就会耗时很长造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行Join操作时同样耗时,但是由于Hadoop的分布式设计理念的特殊性,因此对于这种Join操作也具备了一定的特殊性。8

2017-11-11 22:47:35 624

标准模板库自修教程与参考手册 STL进行C++编程.zip

标准模板库自修教程与参考手册 STL进行C++编程(第二版)高清pdf,文字和代码高清版本,书籍浅显易懂非常适合入门STL的学习

2019-07-11

《Python深度学习》中英文及源代码2018

keras之父Francois Chollet的最新作品,deep learning最佳入门与进阶的指南,包括中文版和英文版以及配套源代码,均为高清文字版本,非扫描版

2018-11-18

Deep Learning with Python-Francois Chollet配套源代码

Deep Learning with Python-Francois Chollet的配套源代码

2018-11-18

Deep Learning with Python-Francois Chollet

keras之父Francois Chollet的最新作品,deep learning最佳入门与进阶的指南

2018-11-18

tensorflow 官方文档中文版

tensorflow官方文档的中文翻译版,适合作为初学tensorflow的指南

2018-11-06

manchine learning yearning 中文版

吴恩达(andrew ng)的新书Machine learning yearning 的中文翻译版

2018-11-06

C++写的机器学习的库

一个用C++写的机器学习的库,作者是Ron Kohavi,是SGI的一个开源项目

2018-06-11

《精通Hadoop》源代码

《精通Hadoop》Mastering Hadoop 人民邮电出版社,源代码

2017-11-14

lab38综合实战-搜索引擎

《大数据实验手册》实验38-综合实战-搜索引擎 包含CreateIndex和Demo

2017-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除