2017年11月_Avalonist

12月 11月

原创吴恩达课程

课程名称：Machine Learning作者：Andrew Ng（吴恩达）中文： http://deeplearning.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B 英文： http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLear

2017-11-24 21:58:07 804

转载 coursera视频网速慢或者无法观看的解决办法

参考 https://www.zhihu.com/question/29433255修改hosts文件，地址如下: C:\Windows\System32\drivers\etc，（以文本格式打开hosts就好）加上如下链接 52.84.246.72 d3c33hcgiwev3.cloudfront.net保存修改后的文件。打开命令行，输入如下命令 ipconfig/flushdns也可

2017-11-24 21:09:43 22594 5

原创网络爬虫初试

爬取腾讯漫画的一个例子# encoding: utf-8from __future__ import print_functionfrom __future__ import unicode_literalsimport requestsimport base64import reimport jsonimport osrequestSession = requests.session

2017-11-24 08:15:43 1115

原创带参数的装饰器

回顾普通的装饰器def outer(func): def wrapper(*args,**kwargs): #装饰后的方法 print("before func") wrapper_result=func(*args,**kwargs) print("after func") return wrapper_result

2017-11-23 19:16:56 10034 1

转载简单 12 步理解 Python 装饰器

转载 http://python.jobbole.com/85056/1. 函数2. 作用域>>> dir()['__builtins__', '__doc__', '__name__', '__package__']使用dir（）可以看到初始时存在的全局变量>>> a_string='this is a global var'>>> def foo():... num=100..

2017-11-23 15:44:26 273

1、查看主机名使用命令：hostname或uname –n2、临时修改主机名使用命令：hostname 新主机名不过采用这种方式，新主机名并不保存在系统中，重启系统后主机名将恢复为原先的主机名称。3、永久修改主机名在Ubuntu系统中永久修改主机名也比较简单。主机名存放在/etc/hostname文件中，修改主机名时，编辑hostname文件，在文件中输入新的主机名并保存该文件即可。重启系统后，参照

2017-11-22 12:25:57 146

转载「蓝光」「720/1080p」「HR-HDTV」等视频制式都是什么意思？清晰度对比如何？

内容整理自https://www.zhihu.com/question/20106926/answer/24733203网络高清视频产生的流程1.电影公司拍好电影后(电影筹备到实景过程叫做前期和中期)–>做后期(比如加入电脑特效,配音同步等)–>剪辑成电影视频文件–>拷贝到专用的储存器材,这个叫做母盘.是一部电影制作完成后最原始的部分.一般人不能拥有.2.然后这个母盘分别制作两个部分:一个是电影院

2017-11-21 22:53:31 4890 1

转载电影发烧友必备知识-720P、1080P、4K的区别

随着技术的进步，现在的影视作品的清晰度也越来越高，观众的体验也越来越好，普清的电影基本没人看了，尤其是影视爱好者现在都是看1080P或蓝光原盘、4K。目前主流清晰度主要分为720P（高清）、1080i 、1080P（全高清）、2K、4K。720P分辨率为1280*720，长宽比16:9，P是Progressive逐行扫描的的意思。720P是一种在逐行扫描下达到1280×720的分辨率的显示格式。视频

2017-11-21 22:08:38 11200 1

原创 Ubuntu下视频播放器选择

安装命令： sudo apt-get install smplayer 再安装解码器：　　安装win32codecs包　　如果是intel的CPU 　　代码: 　　sudo apt-get install w32codecs 　　如果是64位 CPU 　　代码: 　　sudo apt-get install w64codecs

2017-11-21 12:55:11 29217 4

转载 6.2 开发YARN的应用程序

6.2 开发YARN的应用程序 YARN能引入其他的计算模式到Hadoop中。Hadoop 2.x、MapReduce、Pig和Hive都有AM的库和对应的客户端。开发人员可以使用YARN API编写自己的应用并运行在现有的Hadoop框架内。同样，企业如果已经有大量的数据集在HDFS中，也可以编写自定义的应用来使用它们，而不需要提供新的集群或者迁移已有的数据。 Storm是一个已经移

2017-11-16 12:37:15 1214

转载 6.1 YARN的架构

6.1 YARN的架构下图展示了基于YARN的集群的架构，这个集群的模块主要有以下5种类型。资源管理器（Resource Manager，RM）：每个集群里面都有一个RM守护进程，专门负责集群中可用资源的分配和管理。节点管理器（Node Manager，NM）：每个节点都有一个NM守护进程，负责节点的本地资源管理。在RM中，NM代表本地节点。Application Master（

2017-11-16 10:37:01 234

转载 5.4 压缩

5.4 压缩为了节省存储空间和网络数据传输量，我们会反复提到压缩这个问题。当处理大量数据时，只要有办法减少存储空间和网络数据传输量，就能在速度和成本两方面给予效率提升。压缩就是这样一种策略，能帮助基于Hadoop更高效。所有的压缩技术都在压缩速度和压缩效率之间进行了折衷。压缩率越高，压缩速度越慢，反之亦然。每种压缩技术都可以通过调整来权衡以上两个方面。例如，gzip压缩工具提供了选项-1到-

2017-11-16 09:46:24 237

转载 5.3 文件格式

5.3 文件格式有很多文件格式自身也是数据结构。在Hive那章中，我们介绍了ORC文件——优化记录列式文件存储。Hadoop还支持其他一些流行的文件格式。5.3.1 Sequence文件格式 Sequence文件是包含二进制键值对的一种文件格式。Sequence文件中的每一条记录都含有一个键和键对应的值。Sequence文件把多个较小的文件合并成单个较大的文件，这样可以缓解Had

2017-11-15 22:09:55 517

转载 5.2 Avro序列化

5.2 Avro序列化 Avro是一个流行的序列化框架，其主要特点如下：支持多种数据结构的序列化。支持多种编程语言，而且序列化速度快，字节紧凑。Avro代码生成功能是可选的。无需生成类或代码，即可读写数据或使用RPC传输数据。 Avro使用schema来读取和写入数据。schema有助于简洁标识序列化后的对象。在Java序列化中，对象类型的元数据会被写入序列化后的字节流中，

2017-11-15 16:04:47 469

转载 5.1 Hadoop数据序列化

5.1 Hadoop数据序列化尽管我们看到的数据是结构化的形式，但数据的原始形式是序列化的比特或比特流。数据以这种原始形式通过网络传输，然后保存在RAM或其他持久性存储媒体中。序列化过程就是把结构化的数据转换为原始形式。反序列化过程则相反，是把数据从原始比特流形式重建为结构形式。 Hadoop中不同的组件使用远程调用（Remote Procedure Call，RPC）进行交互。在发送调用函数

2017-11-15 15:00:13 406

转载 2.6 数据连接的处理

2.6 数据连接的处理在MapReduce中，连接可以在Map任务中完成，也可以在Reduce任务中完成。前者被称为Map侧的连接，后者被称为Reduce侧的连接。2.6.1 Reduce侧的连接基本的原理是，在每条记录添加一个标签指明数据的来源，并在Map任务中提取连接键。Reduce任务收到同一个连接键的所有记录并执行连接操作。如果参与连接的数据集非常小，可以通过一个旁路通

2017-11-15 12:56:01 148

转载 2.3 Reduce任务

2.3 Reduce任务 Reduce任务是一个数据聚合的步骤。如果Reduce任务的数量没有指定，默认值为1。只执行1个Reduce，可能会面临这个Reduce节点负载过大的风险，而使用过多的Reduce任务则意味着复杂的洗牌处理（shuffle），并使输出文件的数量激增，从而对NameNode造成很大的压力。想要确定一个最优的Reduce任务的数量，关键是要理解数据分布和分片函数。

2017-11-15 11:49:13 348

转载 2.2Map任务

2.2 Map任务 Map阶段的效率是由作业的输入数据的特点决定的。我们已经知道，过多的小文件会出现大量的分片，从而导致Map任务的激增。另一个需要特别注意的重要统计项是Map任务的平均运行时间。太多或者太少的Map任务都会对作业的性能产生不利影响。关键时让这两者达到一个平衡点，二这又取决于应用和数据本身。根据实践总结的一条经验法则是：单个Map任务的执行的时间大约保持在1至3分钟。2.

2017-11-14 22:59:52 538

转载 2.1MapReduce输入

2.1MapReduce输入 MapReduce作业依赖于Map阶段为它提供原始数据的输入，这个阶段提供了能获得的最大并行度，因此它的智能化对一个作业的提速至关重要。数据被分成块（chunk），然后Map任务对每块数据进行操作。每块数据被称为InputSplit。[//后面称分片]Map任务需要在每个InputSplit类上进行操作。还有其他两种类，InputFormat和RecordRea

2017-11-14 11:59:29 472

转载实验9 MapReduce-分布式缓存

9.1实验要求假定现有一个100GB的大表big.txt和一个1MB的小表small.txt,请基于MapReduce思想编程实现判断小表中的单词在大表中出现次数。所谓的“扫描大表，加载小表“。由于实验中没有100GB这样的大表，甚至1MB的小表都没有，因为本实验采用模拟方式，所以用少量数据代表大文件big.txt,更少量数据代表small.txt.9.2实验BigAndSma

2017-11-12 20:23:00 512 1

转载实验7 MapReduce-计数器

7.1概述

2017-11-12 14:46:30 545

转载实验6 MapReduce-二次排序

6.1实验原理首先需要认识到一点就是MR默认会对键进行排序[https://www.cnblogs.com/acSzz/p/6383618.html]Spill过程在collect阶段的执行过程中，当内存中的环形数据缓冲区中的数据达到一定发之后，便会触发一次Spill操作，将部分数据spill到本地磁盘上。SpillThread线程实际上是kvbuffer缓冲区

2017-11-12 14:05:42 730

转载实验8 MapReduce-Join操作

8.3.1概述对于RDBMS中的Join操作，写SQL的时候要十分注意细节，稍有差池就会耗时很长造成很大的性能瓶颈，而在Hadoop中使用MapReduce框架进行Join操作时同样耗时，但是由于Hadoop的分布式设计理念的特殊性，因此对于这种Join操作也具备了一定的特殊性。8

2017-11-11 22:47:35 624

标准模板库自修教程与参考手册 STL进行C++编程.zip

标准模板库自修教程与参考手册 STL进行C++编程（第二版）高清pdf，文字和代码高清版本，书籍浅显易懂非常适合入门STL的学习

2019-07-11

《Python深度学习》中英文及源代码2018

keras之父Francois Chollet的最新作品，deep learning最佳入门与进阶的指南,包括中文版和英文版以及配套源代码，均为高清文字版本，非扫描版

2018-11-18

Deep Learning with Python-Francois Chollet配套源代码

Deep Learning with Python-Francois Chollet的配套源代码

2018-11-18

Deep Learning with Python-Francois Chollet

keras之父Francois Chollet的最新作品，deep learning最佳入门与进阶的指南

2018-11-18

tensorflow 官方文档中文版

tensorflow官方文档的中文翻译版，适合作为初学tensorflow的指南

2018-11-06

manchine learning yearning 中文版

吴恩达（andrew ng）的新书Machine learning yearning 的中文翻译版

2018-11-06

C++写的机器学习的库

一个用C++写的机器学习的库,作者是Ron Kohavi,是SGI的一个开源项目

2018-06-11

《精通Hadoop》源代码

《精通Hadoop》Mastering Hadoop 人民邮电出版社，源代码

2017-11-14

lab38综合实战-搜索引擎

《大数据实验手册》实验38-综合实战-搜索引擎包含CreateIndex和Demo

2017-11-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Zerokas的博客

原创吴恩达课程

转载 coursera视频网速慢或者无法观看的解决办法

原创网络爬虫初试

原创带参数的装饰器

转载简单 12 步理解 Python 装饰器

转载 Linux修改主机名

转载「蓝光」「720/1080p」「HR-HDTV」等视频制式都是什么意思？清晰度对比如何？

转载电影发烧友必备知识-720P、1080P、4K的区别

原创 Ubuntu下视频播放器选择

转载 6.2 开发YARN的应用程序

转载 6.1 YARN的架构

转载 5.4 压缩

转载 5.3 文件格式

转载 5.2 Avro序列化

转载 5.1 Hadoop数据序列化

转载 2.6 数据连接的处理

转载 2.3 Reduce任务

转载 2.2Map任务

转载 2.1MapReduce输入

转载实验9 MapReduce-分布式缓存

转载实验7 MapReduce-计数器

转载实验6 MapReduce-二次排序

转载实验8 MapReduce-Join操作

标准模板库自修教程与参考手册 STL进行C++编程.zip

《Python深度学习》中英文及源代码2018

Deep Learning with Python-Francois Chollet配套源代码

Deep Learning with Python-Francois Chollet

tensorflow 官方文档中文版

manchine learning yearning 中文版

C++写的机器学习的库

《精通Hadoop》源代码

lab38综合实战-搜索引擎

空空如也