自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 资源 (35)
  • 收藏
  • 关注

原创 hadoop2.x集群搭建

1.准备Linux环境 1.0 配置好各虚拟机的网络(采用NAT联网模式) 第一种:通过Linux图形界面进行修改(桌面版本Centos) 进入Linux图形界面 -> 右键点击右上方的两个小电脑 -> 点击Edit connections -> 选中当前网络System eth0 -> 点击...

2019-04-15 15:33:51 86

自然语言处理综论

本书是一本全面系统地讲述计算机自然语言处理的优秀教材。本书英文版出版之后好评如潮,国外许多著名大学纷纷把本书选为自然语言处理和计算语言学课程的主要教材,该书被誉为该领域教材的“黄金标准”。本书包含的内容十分丰富,分为四个部分,共21章,深入细致地探讨了计算机处理自然语言的词汇、句法、语义、语用等各个方面的问题,介绍了自然语言处理的各种现代技术。从层次的角度看,本书的论述是按照自然语言的不同层面逐步展开的,首先论述单词的自动形态分析,接着论述自动句法分析,然后论述各种语言单位的自动语义分析,最后论述连贯文本的自动分析、对话与会话的智能代理以及自然语言生成。从技术的角度看,本书介绍了正则表达式、有限状态自动机、文本-语音转换、发音与拼写的概率模型、词类自动标注、N元语法、隐马尔可夫模型、上下文无关语法、特征与合一、词汇化剖析与概率剖析、一阶谓词演算、词义排歧、修辞结构理论、机器翻译等非常广泛的内容。本书具有“覆盖全面、注重实用、强调评测、语料为本”四大特色。在本书的配套网站上,还提供了相关的资源和工具,便于读者在实践中进一步提高。 ------- 目录 第1章 导论 1.1 语音与语言处理中的知识 1.2 歧义 1.3 模型和算法 1.4 语言. 思维和理解 1.5 学科现状与近期发展 1.6 语音和语言处理简史 1.6.1 基础研究:20世纪40年代和20世纪50年代 1.6.2 两个阵营:1957年至1970年 1.6.3 四个范型:1970年至1983年 1.6.4 经验主义和有限状态模型的复苏:1983年至1993年 1.6.5 不同领域的合流:1994年至1999年 1.6.6 多重发现 1.6.7 心理学的简要注记 1.7 小结 1.8 文献和历史说明 第一部分 词汇的计算机处理 第2章 正则表达式与自动机 2.1 正则表达式 2.1.1 基本正则表达式模式 2.1.2 析取. 组合与优先关系 2.1.3 一个简单的例子 2.1.4 一个比较复杂的例子 2.1.5 高级算符 2.1.6 正则表达式中的替换. 存储器与ELIZA 2.2 有限状态自动机 2.2.1 用FSA来识别羊的语言 2.2.2 形式语言 2.2.3 另外的例子 2.2.4 非确定FSA 2.2.5 使用NFSA接收符号串 2.2.6 识别就是搜索 2.2.7 确定自动机与非确定自动机的关系 2.3 正则语言与FSA 2.4 小结 2.5 文献和历史说明 第3章 形态学与有限状态转录机 3.1 英语形态学概观 3.1.1 屈折形态学 3.1.2 派生形态学 3.2 有限状态形态剖析 3.2.1 词表和形态顺序规则 3.2.2 用有限状态转录机进行形态剖析 3.2.3 正词法规则和有限状态转录机 3.3 把FST词表与规则相结合 3.4 与词表无关的FST:PORTER词干处理器 3.5 人是怎样进行形态处理的 3.6 小结 3.7 文献和历史说明 第4章 计算音系学与文本-语音转换 4.1 言语语音与语音标音法 4.1.1 发音器官 4.1.2 辅音:发音部位 4.1.3 辅音:发音方法 4.1.4 元音 4.1.5 音节 4.2 音位和音位规则 4.3 音位规则和转录机 4.4 计算音系学中的一些高级问题 4.4.1 元音和谐 4.4.2 模板式形态学 4.4.3 优选理论 4.5 音位规则的机器学习 4.6 TTS中从文本映射到语音 4.6.1 发音词典 4.6.2 词典之外的查找:文本分析 4.6.3 基于有限状态转录机(FST)的发音词典 4.7 文本-语音转换中的韵律 4.7.1 韵律的音系学性质 4.7.2 韵律的语音和声学性质 4.7.3 语音合成中的韵律 4.8 人处理音位和形态的过程 4.9 小结 4.10 文献和历史说明 第5章 发音与拼写的概率模型 5.1 关于拼写错误 5.2 拼写错误模式 5.3 非词错误的检查 5.4 概率模型 5.5 把贝叶斯方法应用于拼写 5.6 最小编辑距离 5.7 英语的发音变异 5.8 发音问题研究中的贝叶斯方法 5.8.1 发音变异的决策树模型 5.9 加权自动机 5.9.1 从加权自动机计算似然度:向前算法 5.9.2 解码:Viterbi算法 5.9.3 加权自动机和切分 5.9.4 用切分来进行词表的自动归纳 5.10 人类发音研究 5.11 小结 5.12 文献和历史说明 第6章 N元语法 6.1 语料库中单词数目的计算 6.2 简单的(非平滑的)N元语法 6.2.1 N元语法及其对训练语料库的敏感性 6.3 平滑 6.3.1 加1平滑 6.3.2 Witten-Bell打折法 6.3.3 Good-Turing打折法 6.4 回退 6.4.1 回退与打折相结合 6.5 删除插值法 6.6 拼写和发音的N元语法 6.6.1 上下文有关的错拼更正 6.6.2 发音模型的N元语法 6.7 熵 6.7.1 用于比较模型的交叉熵 6.7.2 英语的熵 6.8 小结 6.9 文献和历史说明 第7章 HMM与语音识别 7.1 语音识别的总体结构 7.2 隐马尔可夫模型概述 7.3 再谈Viterbi算法 7.4 先进的解码方法 7.4.1 A*解码算法 7.5 语音的声学处理 7.5.1 声波 7.5.2 怎样解释波形 7.5.3 声谱 7.5.4 特征抽取 7.6 声学概率的计算 7.7 语音识别系统的训练 7.8 用于语音合成的波形生成 7.8.1 音高和音延的修正 7.8.2 单元选择 7.9 人的语音识别 7.10 小结 7.11 文献和历史说明 第二部分 句法的计算机处理 第8章 词的分类与词类标注 8.1 大多数英语词的分类 8.2 英语的标记集 8.3 词类标注 8.4 基于规则的词类标注 8.5 随机词类标注 8.5.1 说明问题的一个例子 8.5.2 实际的HMM标注算法 8.6 基于转换的标注 8.6.1 怎样应用TBL规则 8.6.2 怎样学习TBL规则 8.7 其他问题 8.7.1 多重标记和多项词 8.7.2 未知词 8.7.3 基于类的N元语法 8.8 小结 8.9 文献和历史说明 第9章 英语的上下文无关语法 9.1 组成性 9.2 上下文无关规则和树 9.3 句子级的结构 9.4 名词短语 9.4.1 在中心名词前的成分 9.4.2 名词后的成分 9.5 并列关系 9.6 一致关系 9.7 动词短语和次范畴化 9.8 助动词 9.9 口语的句法 9.9.1 不流畅现象 9.10 语法等价与范式 9.11 有限状态语法和上下文无关语法 9.12 语法和人的语言处理 9.13 小结 9.14 文献和历史说明 第10章 基于上下文无关语法的剖析 10.1 剖析就是搜索 10.1.1 自顶向下剖析 10.1.2 自底向上剖析 10.1.3 自顶向下剖析与自底向上剖析的对比 10.2 基本的自顶向下剖析 10.2.1 增加自底向上过滤 10.3 基本的自顶向下剖析的问题 10.3.1 左递归 10.3.2 歧义 10.3.3 子树的重复剖析 10.4 Earley算法 10.4.1 预测 10.4.2 扫描 10.4.3 完成 10.4.4 示例 10.4.5 从线图中检索剖析树 10.5 有限状态剖析方法 10.6 小结 10.7 文献和历史说明 第11章 特征与合一 11.1 特征结构 11.2 特征结构的合一 11.3 语法中的特征结构 11.3.1 一致关系 11.3.2 中心语特征 11.3.3 次范畴化 11.3.4 其他词类的次范畴化 11.3.5 长距离依存关系 11.4 合一的实现 11.4.1 合一的数据结构 11.4.2 合一算法 11.5 带有合一约束的剖析 11.5.1 把合一结合到Earley剖析器中 11.5.2 复制的必要性 11.5.3 合一剖析 11.6 类型与继承 11.6.1 类型的扩充 11.6.2 合一的其他扩充 11.7 小结 11.8 文献和历史说明 第12章 词汇化剖析与概率剖析 12.1 概率上下文无关语法 12.1.1 PCFG的概率CYK剖析 12.1.2 PCFG概率的学习 12.2 PCFG的问题 12.3 概率词汇化的CFG 12.4 依存语法 12.4.1 范畴语法 12.5 人的剖析 12.6 小结 12.7 文献和历史说明 第13章 语言的复杂性 13.1 Chomsky层级 13.2 怎么判断一种语言不是正则的 13.2.1 抽吸引理 13.2.2 英语和其他自然语言是正则语言吗 13.3 自然语言是上下文无关的吗 13.4 计算复杂性和人的语言处理 13.5 小结 13.6 文献和历史说明 第三部分 语义的计算机处理 第14章 意义的表示法 14.1 意义表示的计算要求 14.1.1 可能性验证 14.1.2 无歧义表示 14.1.3 规范形式 14.1.4 推论与变元 14.1.5 表达能力 14.2 语言的意义结构 14.2.1 谓词论元结构 14.3 一阶谓词演算 14.3.1 FOPC基础 14.3.2 FOPC的语义 14.3.3 变量和逻辑量词 14.3.4 推论 14.4 某些与语言学相关的概念 14.4.1 范畴 14.4.2 事件 14.4.3 时间表示 14.4.4 体 14.4.5 信念表示 14.4.6 缺陷 14.5 有关的表示方法 14.6 意义的其他表示方法 14.6.1 作为行动的意义 14.6.2 作为真值的意义 14.7 小结 14.8 文献和历史说明 第15章 语义分析 15.1 句法驱动的语义分析 15.1.1 给上下文无关语法规则扩充语义 15.1.2 量词辖域和复杂项的转译 15.2 给英语片断附加语义分析 15.2.1 句子 15.2.2 名词短语 15.2.3 动词短语 15.2.4 介词短语 15.3 把语义分析结合到Earley剖析中 15.4 惯用语和组成性 15.5 鲁棒的语义分析 15.5.1 语义语法 15.5.2 信息抽取 15.6 小结 15.7 文献和历史说明 第16章 词汇语义学 16.1 词位及其涵义之间的关系 16.1.1 同形关系 16.1.2 多义关系 16.1.3 同义关系 16.1.4 上下位关系 16.2 WORDNET:词汇关系信息库 16.3 词的内在结构 16.3.1 题元角色 16.3.2 选择限制 16.3.3 基元分解 16.3.4 语义场 16.4 语言的创造性与词典 16.4.1 隐喻 16.4.2 换喻 16.4.3 隐喻和换喻的计算方法 16.5 小结 16.6 文献和历史说明 第17章 词义排歧与信息检索 17.1 基于选择限制的排歧 17.1.1 选择限制的局限性 17.2 鲁棒的词义排歧 17.2.1 机器学习方法 17.2.2 基于词典的方法 17.3 信息检索 17.3.1 向量空间模型 17.3.2 检索词加权 17.3.3 检索词的选择和创造 17.3.4 同形关系. 多义关系和同义关系 17.3.5 改进用户的查询条件 17.4 信息检索的其他任务 17.5 小结 17.6 文献和历史说明 第四部分 语用的计算机处理 第18章 话语 18.1 所指判定 18.1.1 所指现象 18.1.2 同指的句法和语义约束 18.1.3 代词解释中的优先关系 18.1.4 代词判定算法 18.2 文本的连贯 18.2.1 现象 18.2.2 基于推理的判定算法 18.3 话语结构 18.4 所指和连贯的心理语言学研究 18.5 小结 18.6 文献和历史说明 第19章 对话与会话智能代理 19.1 什么使对话出现差别 19.1.1 话轮和话段 19.1.2 对话的共同基础 19.1.3 会话隐涵 19.2 对话行为 19.3 对话行为的自动解释 19.3.1 对话行为的计划推理解释 19.3.2 对话行为的基于提示的解释 19.3.3 要点 19.4 对话结构与连贯性 19.5 会话智能代理中的对话管理 19.6 小结 19.7 文献和历史说明 第20章 自然语言生成 20.1 语言生成导引 20.2 生成的体系结构 20.3 表层实现 20.3.1 系统语法 20.3.2 功能合一语法 20.3.3 要点 20.4 话语规划 20.4.1 文本说明图 20.4.2 修辞关系 20.4.3 小结 20.5 其他问题 20.5.1 微规划 20.5.2 词汇选择 20.5.3 生成系统评价 20.5.4 语音生成 20.6 小结 20.7 文献和历史说明 第21章 机器翻译 21.1 语言的相似性和差异性 21.2 转换模型 21.2.1 句法转换 21.2.2 词汇转换 21.3 中间语的思想:使用意义 21.4 直接转换 21.5 使用统计技术 21.5.1 流畅性的量化 21.5.2 忠实性的量化 21.5.3 输出的搜索 21.6 可用性与系统开发 21.7 小结 21.8 文献和历史说明 附录A 正则表达式的算符 附录B PORTER STEMMING算法 附录C 标记集C5和C7 附录D HMM模型的训练:向前-向后算法 参考文献 术语表

2019-04-17

数据库系统概论 第5版_完整版 带书签目录

《数据库系统概论(第5版)“十二五”普通高等教育本科国家级规划教材》第1版于1983年出版,至今已修订至第5版。第5版被列入“十二五”普通高等教育本科国家级规划教材。相应课程于2004年被评为北京市精品课程,2005年被评为国家精品课程,2014年被批准为国家级精品资源共享课。 《数据库系统概论(第5版)“十二五”普通高等教育本科国家级规划教材》系统全面地阐述了数据库系统的基础理论、基本技术和基本方法。全书分为4篇16章。第一篇基础篇,包括绪论、关系数据库、关系数据库标准语言SQL、数据库安全性和数据库完整性,共5章;第二篇设计与应用开发篇,包括关系数据理论、数据库设计和数据库编程,共3章;第三篇系统篇,包括关系查询处理和查询优化、数据库恢复技术、并发控制和数据库管理系统,共4章;第四篇新技术篇,包括数据库技术发展概述、大数据管理、内存数据库系统和数据仓库与联机分析处理技术,共4章。 《数据库系统概论(第5版)“十二五”普通高等教育本科国家级规划教材》可以作为高等学校计算机类专业、信息管理与信息系统等相关专业数据库课程的教材。也可供从事数据库系统研究、开发和应用的研究人员和工程技术人员参考。

2019-04-17

深入理解计算机系统(中文版)

从程序员的视角,看计算机系统! 本书适用于那些想要写出更快、更可靠程序的程序员。通过掌握程序是如何映射到系统上,以及程序是如何执行的,读者能够更好的理解程序的行为为什么是这样的,以及效率低下是如何造成的。粗略来看,计算机系统包括处理器和存储器硬件、编译器、操作系统和网络互连环境。而通过程序员的视角,读者可以清晰地明白学习计算机系统的内部工作原理会对他们今后作为计算机科学研究者和工程师的工作有进一步的帮助。它还有助于为进一步学习计算机体系结构、操作系统、编译器和网络互连做好准备。 本书的主要论题包括:数据表示、C程序的机器级表示、处理器结构,程序优化、存储器层次结构、链接、异常控制流、虚拟存储器和存储器管理、系统级I/O、网络编程和并发编程。书中所覆盖的内容主要是这些方面是如何影响应用和系统程序员的。例如,在讲述数据表示时,本书说明了用来表示数字的表示方法是有限的,它能够近似地表示整数和实数,但是这种表示方法是有限制的,程序员必须了解。在讲述高速缓存时,本书讨论了矩阵代码中的循环变量的顺序是如何影响程序的性能的。在讨论网络互连时,本书描述了并发服务器如何能有效地处理来自多个客户端的请求。 本书基于Intel兼容(IA32)机器,在Unix或者相关的操作系统(例如,Linux)上执行C程序。虽然书中包括了一些帮助读者将Java转化成C的提示,但是还是要求读者对C或者C++有一定的了解。 您可以通过本书的Web网站www.csapp.cs.cmu.edu获得完整的资料,包括实验和作业,授课笔记和代码示例。 本书英文版久负盛名,被众多专业人士称为“最伟大的计算机教材”之一,著名的美国卡内基梅隆大学计算机科学系一直将本书作为教材使用,程序员眼中的透彻讲述计算机系统的扛鼎之作。作者Randal E. Bryant是卡耐基梅隆大学的计算机科学系主任,ACM和IEEE双院士(Fellow),其研究成果多次获得ACM和IEEE颁发的大奖。 本书共分十三章,分别介绍了信息的表示和处理、程序的机器级表示、处理器体系结构、存储器层次结构、静态和动态链接、虚拟存储器、系统级I/O、网络编程和并发编程等精彩内容。其目的是解释计算机系统的所有本质概念,并向读者展示这些概念是如何实际地影响应用程序的正确性、性能和实用性。与其他主要针对系统构造人员的系统类书籍不同,这本书是写给程序员的,是从程序员的角度来描述的。本书为软件和硬件之间搭起了一个桥梁,它给出了一种帮助读者分别从硬件和软件的角度去理解一个程序及其行为的途径,这也填补了国内计算机系统教学中的一个空白。本书的最大优点是帮助读者理解概念,让读者很清楚地在脑海中构造一个层次型的计算机系统,从最低层数据在内存中的表示(如我们一直陌生的浮点数表示),到流水线指令的构成,到虚拟存储器,到编译系统,到动态加载库,到最后的用户应用。 本书提供了大量的例子和练习及部分答案。尤其值得一提的是,对于每一个基本概念都有相应的笔头或程序试验,加深读者的理解。

2019-04-17

Python数据分析与数据化运营

豆瓣:8.8 这是一部从实战角度讲解如何利用Python进行数据分析、挖掘和数据化运营的著作,不仅对数据分析的关键技术和技巧进行了总结,更重要的是对会员、商品、流量、内容4个主题的数据化运营进行了系统讲解。 作者是国内一线数据分析师和大数据专家,在数据分析和数据化运营领域有近10年的经验,在业内颇具知名度和影响力。本书不仅得到了宋星、黄成明、宫鑫等14位资深专家的好评和推荐,还得到了天善智能、中国统计网等多个数据科学相关机构的支持和高度认可。 全书的内容在逻辑上共分为两大部分: 第一部分(第1~4章):Python数据分析与挖掘 着重讲解了Python和数据化运营的基本知识,以及Python数据获取(结构化和非结构化)、预处理、分析和挖掘的关键技术和经验。包含11条数据预处理经验、39个数据预处理知识点、14个数据分析和挖掘的建模主题。 第二部分(第5~9章):Python数据化运营 这是本书的核心,详细讲解了会员运营、商品运营、流量运营和内容运营4大主题,以及提升数据化运营价值的方法。在每个运营主题中都包含了基本知识、评估指标、应用场景、数据分析模型、数据分析小技巧、数据分析大实话以及2个综合性的应用案例。 本书提供案例数据和源代码(中文注释)下载,供读者实操时使用。

2019-04-17

Python Web开发实战-董伟明

这本书涵盖了Web开发的方方面面,可以分为如下部分: 1. 使用最新的Flask 0.11进行Web开发,学习Jinja2、Flask-Script、Flask-Migrate、Flask-Security、Flask-Assets等8种常用扩展,帮助读者理解Flask 的 优秀设计(上下文、BluePrint等),最后利用Mako、Flask_mako、SQLAlchemy、Pillow等技术实现一个豆瓣一个真实的服务。 2. 阐述笔者对REST的理解,并提出一些设计API的注意事项,最后通过jQuery和fetch实现使用Ajax的例子,让读者了解如何让前后端通信。 3. 对Python应用服务器,Web服务器、缓存系统、键值对数据库等技术的选型和使用方法,最后演示大型网站架构及其重要组件的用意。 4. 使用Fabric、SaltStack、Ansible、Supervisor、Graphite等做系统管理,并演示一个通过最新的Sentry 8演示如何收集应用错误信息。 5. 测试和持续集成,最后使用最新的Buildbot 0.9实现一个Github项目的持续集成。 6. 深入RabbitMQ和Celery的原理和使用方法,最后分享笔者使用的进阶实践。 7. 服务化及豆瓣服务化实践。 8. 详细讲解豆瓣工程师都在用的DPark,包含安装、环境配置、使用和框架化分析uv&pv;,接着将展示几个笔者实际工作中的数据报表需求,并讲解如何用Pandas做数据可视化。 9. 深入IPython和Jupyter Notebook这两个工具,并分享在豆瓣对应的实践。 10. 从获取Linux服务器的相关情况、性能测试、分析Python程序性能瓶颈三个方面展示对应的工具及使用方法。 11. 以抓取微信公众号文章为主线,分别使用多线程、多进程、Gevent、Future和asyncio这5种编程方式完成不同阶段的爬取任务,也深入地分析在它们之间如何选择。 12. Python进阶和Web项目经验。 封底推荐语 伟明把他个人多年 Web 开发的经验,以及豆瓣十年来数百名优秀工程师在 Web 开发上最佳实践的积累,凝聚在了《Python Web 开发实战》这本书里,多维度、全面地介绍了 Python Web 开发涉及的各种技术。我向所有有兴趣使用 Python 做 Web 开发的开发者们,强烈推荐此书。 ——洪强宁,爱因互动CTO,前豆瓣首席架构师,前宜信大数据创新中心首席架构师 感谢伟明把豆瓣的一些工程实践进行了整理和总结,这是本书最宝贵的一点,库谁都会用,但在什么场景使用,在生产环境中这个库的表现到底如何,是这本书的一个精华,期望将来还可以看到越来越多这样的图书,祝此书大卖。 ——清风,SAY CEO,前豆瓣技术总监。 伟明将自身在 Web 领域所有方面的经验提炼后整理成书,本质上是将几十个关联产品的官方文档,结合具体工程经验进行了梳理,给出了领域问题最佳方案的关键思考点和自己的答案,而更加可贵的是,给出了这些思考点的来源,以及形成过程,即给出了解决各种 Web 领域问题的思维模式。 ——Zoom.Quiet(大妈),优视眼动科技 CTO,Python 中文社区创始人之一和管理员 阅读本书,我最大的感受就是:全和新。本书的内容涉及了Web框架、Ajax的前后端交互、测试、数据库、数据分析、服务化、部署、系统管理、常用工具等内容,有点百科全书的意味。另外,书中讲的许多东西都是现在正在流行的技术或工具,像Flask、Celery、Jupyter、Supervisor、SaltStack、Pandas等。 ——李迎辉,Python开源资深行者,Python-CN邮件列表创建人,UliPad和Uliweb作者 本书由Python开发开始,循序渐进,把网站工程的全貌展现在读者的眼前,是了解Web工程从开发到上线完整流程的绝佳参考书籍。 ——邢犇(CNBorn), 前豆瓣东西技术负责人 很多刚进入Python世界的人,伟明的这本书提供了一个非常好的“知识地图”,书中涉及了Python Web开发的方方面面。 ——胡阳(the5fire),手机搜狐网,任资深开发工程师 这本书从开发环境的搭建,Web 框架的使用,到最后的持续集成和 Python 的进阶用法,无一不是他多年的实际工程经验总结,十分宝贵。 ——姚钢强(acmerfight),知乎工程师 这本书非常全面地介绍了使用 Python 进行 Web 开发的方方面面,既有 Web 框架、缓存、消息队列、并发处理的场景介绍和技术选型,又有开发流程、质量保证的丰富实战经验。 ——蔡斌(VeryCB),DeepDevelop工程师,前豆瓣条目组技术负责人 整本书都是作者对实际Web项目中大量实战经验的总结,绝非纸上谈兵。相信通过阅读该书可以帮助开发者规避掉大量项目中的“坑”,构建出更高性能、更稳定的Web项目。 ——Spawnris, 腾讯工程师

2019-04-17

《鸟哥的Linux私房菜-基础篇》第四版

本書前三版均蟬聯電腦專業書籍Linux暢銷排行榜Top1,為地表最暢銷的Linux中文書籍! 您是有意學習Linux的小菜鳥,卻不知如何下手?您是遨遊Linux的老鳥,想要一本資料豐富的工具書?本書絕對是最佳選擇! ※鳥哥傾囊相授,內容由淺入深 書中包含了鳥哥從完全不懂Linux到現在的所有歷程,鳥哥將這幾年來的所知所學傾囊相授,以最淺顯易懂的文字帶領您進入Linux的世界。 ※按部就班,打好基礎的第一步 本書劃分為五大部分,每個部分都有相關性的特色,涵蓋:Linux的規劃與安裝,認識Linux檔案、目錄與磁碟格式,學習Shell與Shell Scripts,Linux使用者管理與Linux系統管理員,依序學習,讓您奠定Linux的基礎,跨出成功的第一步。 ※精心改版,提供您更新的技術 《鳥哥的Linux私房菜基礎學習篇-第四版》提供近期更新的技術,包括:安裝CentOS 7.x、核心版本的升級建議、虛擬系統的操作、GPT 分割表格式處理、XFS 檔案系統的實際操作使用、systemd 服務的管理、 日誌格式的更新、grub2 開機管理程式的說明、nmcli文字指令操作網路參數的方式等等,內容

2019-04-17

《大象:Thinking in UML》(第2版)

1.RUP与UML的设计思想来自于软件开发实践中。而对于现实的建模是一个很难的事务,UML只提供了一组图形化的描述语言,而RUP则定义了一套较为规范的工作流程。《大象》这本书将UML与RUP的功能与操作阐述得很清楚。 2.要用《大象》之神,而不要拘泥于其形。对于重复性的劳动,可以用规范化的文档来管理;要善于在小组中总结整理开发经验,不断磨合来达到默契,而非强制在UML或在RUP上。从一开始就要有勇气去挑战RUP与UML,建立制定自己的管理开发方式。 3.千姿百态是世界的本真,也是软件的灵魂。客户并不看好刻板的软件,而需要灵活方便的解决方案。这就要求在开发时,要充分发挥人的力量,不要让文档束缚了人。 4.在小组中实施《大象》所提出的工作流程前,一定要三思。UML与RUP是不错,但其切换成本实在是高。不要利用自己的职务或技术优势来强行推广UML/RUP,而应该在既有环境下,创新出一种UML方言。要铭记:交流最重要,力量来自组内畅通的交流,而非规范化的文档。

2019-04-17

Hadoop深度学习

本书主要目标是处理很多深度学习应用的热点问题并向读者披露解决方案的细节。主要内容分为7章:第1章介绍深度学习基础知识,第2章介绍大规模数据的分布式深度学习,第3章介绍卷积神经网络,第4章介绍循环神经网络,第5章介绍受限玻尔兹曼机,第6章介绍自动编码器,第7章介绍如何用Hadoop玩转深度学习。 本书将教你如何使用Hadoop在深度神经网络中部署大型数据集,以实现最佳性能。 从了解什么是深度学习以及与深度神经网络相关的各种模型开始,本书将向你展示如何配置用于深度学习的Hadoop环境。 本书内容 第1章,深度学习介绍。深度学习在过去十年间已深入人心,由于功能增强了,其发展速度甚至超过了机器学习。这一章首先介绍了人工智能的现实应用、相关的挑战,以及深度学习为..

2019-04-17

深入浅出Rust

本书详细描述了Rust语言的基本语法,穿插讲解一部分高级使用技巧,并以更容易理解的方式解释其背后的设计思想。全书总共分五个部分。 第一部分介绍Rust基本语法,因为对任何程序设计语言来说,语法都是基础,学习这部分是理解其他部分的前提。 第二部分介绍属于Rust独一无二的内存管理方式。它设计了一组全新的机制,既保证了安全性,又保持了强大的内存布局控制力,而且没有额外性能损失。这部分是本书的重点和核心所在,也是Rust语言的思想内核精髓之处。 第三部分介绍Rust的抽象表达能力。它支持多种编程范式,以及较为强大的抽象表达能力。 第四部分介绍并发模型。在目前这个阶段,对并行编程的支持是新一代编程语言不可绕过的重要话题。Rust也吸收了业界最新的发展成果,对并发有良好支持。 第五部分介绍一些实用设施。Rust语言有许多创新,但它绝不是高高在上孤芳自赏的类型,设计者在设计过程中充分考虑了语言的工程实用性。众多在其他语言中被证明过的优秀实践被吸收了进来,有利于提升实际工作效率。 通过此书,读者能够深入透彻地理解Rust的高阶特性,比如代数类型系统、生命周期、借用检查、内部可变性、线程安全、泛型、闭包、迭代器、生成器等。可作为参考书供学生、软件工程师、研究人员以及其他对Rust语言感兴趣的读者参考。本书所揭示的Rust编程语言的设计思想对于理解其他系统编程语言,如C++,也非常有帮助。

2019-04-17

机器学习和深度学习个人笔记合集

Machine Learning(机器学习)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演译。在过去的十年中,机器学习帮助我们自动驾驶汽车,有效的语音识别,有效的网络搜索,并极大地提高了人类基因组的认识。机器学习是当今非常普遍,你可能会使用这一天几十倍而不自知。很多研究者也认为这是最好的人工智能的取得方式。在本课中,您将学习最有效的机器学习技术,并获得实践,让它们为自己的工作。更重要的是,你会不仅得到理论基础的学习,而且获得那些需要快速和强大的应用技术解决问题的实用技术。最后,你会学到一些硅谷利用机器学习和人工智能的最佳实践创新。 本课程提供了一个广泛的介绍机器学习、数据挖掘、统计模式识别的课程。主题包括: (一)监督学习(参数/非参数算法,支持向量机,核函数,神经网络)。 (二)无监督学习(聚类,降维,推荐系统,深入学习推荐)。 (三)在机器学习的最佳实践(偏差/方差理论;在机器学习和人工智能创新过程)。本课程还将使用大量的案例研究,您还将学习如何运用学习算法构建智能机器人(感知,控制),文本的理解(Web搜索,反垃圾邮件),计算机视觉,医疗信息,音频,数据挖掘,和其他领域。 本课程需要10周共18节课,相对以前的机器学习视频,这个视频更加清晰,而且每课都有ppt课件,推荐学习。 本人2014年下半年开始翻译本课程字幕,并写了课程的中文笔记。笔记被下载了几万次,应该帮助了不少人,也有很多人一直在帮助我,现在我把笔记的word原稿和markdown原稿分享给大家。 markdown的笔记和课程中英文字幕我将放在github,希望大家能继续完善。为方便数学公式的在线显示,在线观看的是html文件,公式已经被转为图片,公式源码在markdown文件。 最后想对各位朋友说: 赠人玫瑰,手有余香! 在人工智能的道路上,你不是一个人在战斗!

2019-04-17

Hadoop YARN权威指南_(美)默西著_北京:机械工业出版社

《Hadoop YARN权威指南》由YARN的创建和开发团队亲笔撰写,Altiscale的CEO作序鼎力推荐,是使用Hadoop YARN建立分布式、大数据应用的权威指南。书中利用多个实例,详细介绍Hadoop YARN的安装和管理,以帮助用户使用YARN进行应用开发,并在YARN上运行除了MapReduce之外的新框架。 《Hadoop YARN权威指南》共12章,第1章讲述Apache Hadoop YARN产生和发展的历史;第2章讲解在单台机器(工作站、服务器或笔记本电脑)上快速安装Hadoop 2.0;第3章介绍Apache Hadoop YARN资源管理器;第4章简要介绍YARN组件的功能,帮助读者开始深入了解YARN;第5章详细讲解YARN的安装方法,包括一个基于脚本的手动安装,以及使用Apache Ambari基于GUI的安装;第6章讲述对YARN集群的管理,涉及一些基本的YARN管理场景,介绍如何利用Nagios和Ganglia监控集群,论述对JVM的监视,并介绍Ambari的管理界面;第7章深入探究YARN的架构,向读者展示YARN的内部工作原因;第8章深入讨论Capacity调度器;第9章描述基于现有MapReduce的应用程序如何继续工作以及利用YARN的优势;第10章通过创建一个JBoss Application Server集群的过程,讲述如何构建一个YARN应用程序;第11章描述建立在YARN上的典型示例程序distributed shell的使用和内部情况;第12章总结运行在YARN上的新兴开源框架。最后提供6个附录,包括补充内容和代码下载、YARN的安装脚本、YARN管理脚本、Nagios模块、资源及其他信息、HDFS快速参考。

2019-04-17

快学Scala(第2版)

Scala是一门主要以Java虚拟机(JVM)为目标运行环境并将面向对象和函数式编程语言的最佳特性结合在一起的编程语言。你可以使用Scala编写出更加精简的程序,同时充分利用并发的威力。由于Scala默认运行于JVM之上,因此它可以访问任何Java类库并且与Java框架进行互操作,比如Scala可以被编译成JavaScript代码,让我们更便捷、高效地开发Web应用。本书从实用角度出发,给出了一份快速的、基于代码的入门指南。Horstmann以“博客文章大小”的篇幅介绍了Scala的概念,让你可以快速地掌握和应用。《快学Scala(第2版)》用易于上手的操作、清晰定义的能力层次,为从初学者到专家的各阶段读者提供全程指导。 《快学Scala(第2版)》适合有一定Java编程经验、对Scala感兴趣,并希望尽快掌握Scala核心概念和用法的开发者阅读。 这本书看完花的时间并不多,三天左右把。主要是工作的时候要用,有时候忘记了某个知识点也可以翻起来看看。对于入门来说这本书是足够了,但是当你需要一些高级特性时,却找不到过多的描述。     可能这本书的定位就在于“快学”,略去大多复杂的高级特性,只保留比较基础的实践,对于新人来说是很不错的,可以打消很多对一门新的语言的隔阂感。但是对于需要深入的学习的同学,我认为看完这本快学之后还需要找点其他文档补充一番。      当然我现在也只看完了这一本Scala相关的书籍,和推特的教程。就不出来推荐进阶类的书籍了~

2019-04-17

ElasticSearch 可扩展的开源弹性搜索解决方案

《ElasticSearch:可扩展的开源弹性搜索解决方案》基于ElasticSearch 的0.2 版本,覆盖了ElasticSearch 各种功能和命令的应用,全面、详细地介绍了开源、分布式、RESTful,具有全文检索功能的搜索引擎ElasticSearch。《ElasticSearch:可扩展的开源弹性搜索解决方案》前两章着重介绍了ElasticSearch 的基本功能和用法,包括ElasticSearch 的安装和配置、REST API 的使用方法,以及怎样使用Query DSL 语句进行查询、过滤、排序等。接下来的4 章是对ElasticSearch 基本功能的扩展,主要介绍了如何使用统计功能来计算查询返回结果的聚集数据、如何实现自动补全功能、如何使用ElasticSearch 的空间数据处理能力,以及如何使用预期搜索功能等。第7 章介绍了ElasticSearch 管理API 的能力,如控制分片部署位置、操纵集群等功能。在第8 章将学习到如何处理使用ElasticSearch 过程中可能遇到的常见问题。 《ElasticSearch:可扩展的开源弹性搜索解决方案》内容丰富、全面,基本概念的讲解细致、深入浅出。各种功能和命令的介绍,都配以实践操作和详细的代码。《ElasticSearch:可扩展的开源弹性搜索解决方案》是初学者学习ElasticSearch 不可多得的一本入门好书,对使用过ElasticSearch 及知道Apache Solr搜索引擎的人也颇有帮助。

2019-04-17

Scala函数式编程

函数式编程(FP)是一种软件开发风格,它注重不依赖于编程状态的函数。函数式代码易于测试和复用,容易实现并发,且不容易受到bug的攻击。Scala是一种能很好支持函数式编程的新兴JVM语言。《Scala函数式编程》是针对希望学习FP并将它应用于日常编码中的程序员而写的,内容包括:函数式编程的概念;函数式编程相关的各种“为什么”和“怎么做”;如何编写多核程序;练习和检测。 从OOP到FP,思路的转化 我是使用scala做完一个项目之后,开始阅读本书。 介绍下背景: 1 程序员 2 前C程序员,linux平台,没有很深的java背景 3 用scala做过一个2年期的项目 在使用scala的过程中,碰到的问题主要体现在: 1 scala的很多语法糖不理解,不知道为啥要这么写,有种为了这么写的简洁而这么写的感觉 2 scala很多库在设计的时候,不理解原因,包括Option,Collection的很多看似有冗余的地方 3 很多scala的默认写法,不理解 4 多态的具体化,尤其是协变的意义所在 5 各种重载的符号使用 之前读过 programming in scala,对语言的整体还停留在: 1 scala用起来比java更灵活 2 强大的collection,可以更加方便的处理collection类的数据 3 不同于java的并行处理方法,有点像c的逻辑思路 4 开发成本比java小,但是语言学习成本比java高很多 正在阅读这本书的过程中,只能一点一点说。 第一部分快要读完了,习题也快要做完了。 1 第一部分主要着墨点正是回答我上述问题的1,2,3的。很大篇幅都放在,使用scala实现scala默认库文件的API中,通过对简单的函数式编程逻辑的介绍和实践,主要是实践,建立起来一个比较明晰的scala思维模式,或者叫函数式编程的思维模式。 2 无副作用的函数式编程,同时也解释了为什么在scala中,val和var的区分为什么那么重要。 3 在做习题的过程中,尤其是在做类型推导的过程中,对原来oop,命令式编程向函数式编程转变有很大作用;而且简洁的语法,确实让人有享受编程的感觉。

2019-04-17

Hive编程指南

《Programming Hive》:2012年10月出版的英文原版书,amazon.cn上可以买到,也可以到amazon.com上直接买,加上运费后价格相同。 Hive的学习资料比较少,官网上的介绍也不全面。这本书基本上是第一本专门介绍Hive的书。我看过后发现比hive官网的信息都要全面。大部分篇幅在说Hive的开发,小部分在讲运维。非常值得学习Hive的同好们读一读。 学过Hive, 也算是对自己大数据学习之旅的一个总结吧(如果用过Hadoop, 写过MapReduce, 却不懂Hive感觉是一个缺憾, Hive的代码可以算是一款高质量的MR应用): 从12年至今, 云计算、大数据、VR/AR、人工智能、区块链 ..., 虽然大数据已不再火热, 热搜也被区块链/以太坊取代, 但是任何一家有规模的互联企业, 无不有一套以大数据为中心的解决方案。 Hive的存在也是在大数据领域的一种创新, 他完全不同于Google的设计风格, 但同时市场也告诉我们, Google的也不一定是最好的! 祝福(●・◡・●)ノ♥

2019-04-17

HBase权威指南

《HBase权威指南》探讨了如何通过使用与HBase高度集成的Hadoop将HBase的可伸缩性变得简单;把大型数据集分布到相对廉价的商业服务器集群中;使用本地Java客户端,或者通过提供了REST、Avro和Thrift应用编程接口的网关服务器来访问HBase;了解HBase架构的细节,包括存储格式、预写日志、后台进程等;在HBase中集成MapReduce框架;了解如何调节集群、设计模式、拷贝表、导入批量数据和删除节点等。 《HBase权威指南》适合使用HBase进行数据库开发的高级数据库研发人员阅读。

2019-04-17

HBase管理指南

《HBase管理指南》通过详尽的操作步骤以及贴近实际使用的案例说明,帮助读者轻松掌握管理HBase所需的各项技能。《HBase管理指南》是一部实用性很强的操作指南,主要介绍如何建立一个完全分布式的HBase集群并将数据转移到该集群中,以及如何使用各种工具来完成日常的管理工作,有效管理和监控集群以使其达到最佳的性能,最终还将讲解如何安装Hadoop集群、如何配置Hadoop,使其与HBase进行协作和如何调整Hadoop的性能。 《HBase管理指南》适合使用HBase进行数据库开发的高级数据库研发人员阅读使用。

2019-04-17

Apache Kylin权威指南

Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心开发团队编写,系统地介绍了Apache Kylin安装、入门、可视化、模型调优、运维、二次开发等各个方面,是关于Apache Kylin的权威指南。 第1章和第2章是基本概念和快速入门,为初学者打下坚实基础。第3章和第4章介绍增量构建和进阶的流式构建,应对数据的持续增长。第5章展示丰富的查询接口和其上的可视化能力。第6章则重点讲解了Cube模型和调优,它们是用好Apache Kylin,提升百倍性能的关键。第7章通过一系列有行业特点的具体案例分析,贯穿之前的所有概念,温故知新。第8章介绍可扩展架构和二次开发接口,适合开发者。第9章则介绍企业级功能、用户的认证和授权相关知识。第10章着重于安装和企业级部署、运维管理等内容。第11章和第12章分别说明如何参与和贡献到开源,以及Apache Kylin的未来。

2019-04-17

scala-2.11.5

Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。 Scala 运行在Java虚拟机上,并兼容现有的Java程序。 Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库

2019-04-15

算法 第四版

个人觉得是我见过的最简单易懂的算法入门书籍。 以前搜刮过几本算法竞赛书,但是难度终归太大【好吧,其实是自己太懒了】。 略翻过教材,大多数水校的教材,大家懂的。好一点的也是那本国内的经典,不是说它写的不好,只是没有这一本好。 本书Java实现,配有大量的图解,没有一句难懂的话,而且全都是模块化实现。 讲的都是实用算法,没有那些高大上听着名字就让人感到很害怕的东西,个人觉得比CLRS实用性要强,更加适合入门的学习。 大一,推荐这本书入门 【有C语言基础即可,自己去搜索下如何用Java写出Hello World就没有问题】 大二,推荐这本书从头到尾好好读一遍,做下上千道的课后习题 【后面的有点小难度,但是难度不大值得一做,听起来很多的样子,用心去做,相信很快就可以做完的】。 大三,推荐这本书,重新温习已知算法,为找工作,考研做准备。 【可以试着自己在纸上全部实现一遍】 大四,依旧推荐这本书,没事重温经典,当手册来查也不错。 Sedgwick 红黑树的发现者,Donald E.Knuth 的得意门生,对各种算法都有比较深入的研究,他的书,我想不会太差。 也许对于数据结构的学习涉及的内容比较少,没有动态规划,图论也只是讲了很基础的东西,字符串中KMP弄的过于复杂(对比于acm)。但是瑕不掩瑜,对于绝大部分内容真的讲的超级清楚,完美的图解,就像单步调试一样,也许是一本不需要智商就能看懂的算法书(习题应该略有难度,还没有做,打算上Princeton的公开课时同步跟进)。至少这是一本让我这个算法渣渣看了爱不释手,怦然心动的书。 完美学习资源: 官方主页:http://algs4.cs.princeton.edu/home/ Coursera公开课:https://www.coursera.org/course/algs4partI (听说已经开课两期了,最近即将开课的时间是2014/09/05号那期,希望有兴趣的同学一起来学习)。 MOOC平台(笔记、讨论等): http://mooc.guokr.com/course/404/Algorithms--Part-I/ http://mooc.guokr.com/course/403/Algorithms--Part-II/ 不得不吐槽,他的lecture比他的书好,他本人讲的课更是一绝。 互补课程: 斯福坦的Algorithms: Design and Analysis, http://mooc.guokr.com/course/157/Algorithms--Design-and-Analysis--Part-1/ 快毕业了才接触到豆瓣和MOOC,看到很多经典的书籍都是推荐大学一二年级的学生看,每每想到自己却连书皮都没有摸过,就深感惭愧。 我们都老的太快,却聪明得太迟。

2019-04-15

机器学习实战-中文版-带目录版

为什么我会力荐这本书? 也许书中分类器都非常的简单,数学理论都非常的粗浅(为了看明白书中SVM分类器的训练过程,不得不去复习了二次凸优化解法,自己推导被作者略去的中间过程),算法测试也只在轻量级的数据集上完成。 不过,大可不必像其他评论一样对贬低本书。聪明的读者会知道自己没有什么,自己需要学习什么。如果更加喜欢背后深奥的统计学理论和凸优化理论,可以去看《Machine Learning: A Probabilistic Perspective》,如果对自己的数学水平足够自信的话。 这本书能让你明白: 那些被吹捧得出神入化的分类算法,竟然实现起来如此简单; 那些看是高深的数学理论,其实一句话就能道明其本质; 一切复杂的事物,出发点都是非常简单的想法。 我说不出这本书适合什么样的读者,但是却明白它不适合谁: 学过一点机器学习或者模式识别或者数据挖掘,完全不具备统计推断和凸优化知识,又想找一条捷径,想从菜鸟摇身一变成大师的人; 对编程不感兴趣的人,或者没有动手实践习惯的人; 不喜欢独立思考,希望别人把答案摆在自己面前的人。

2019-04-15

机器学习算法原理与编程实践

本书是机器学习原理和算法编码实现的基础性读物,内容分为两大主线:单个算法的原理讲解和机器学习理论的发展变迁。算法除包含传统的分类、聚类、预测等常用算法之外,还新增了深度学习、贝叶斯网、隐马尔科夫模型等内容。对于每个算法,均包括提出问题、解决策略、数学推导、编码实现、结果评估几部分。数学推导力图做到由浅入深,深入浅出。结构上数学原理与程序代码一一对照,有助于降低学习门槛,加深公式的理解,起到推广和扩大机器学习的作用。

2019-04-15

Spark内核设计的艺术架构设计与实现

全书分为10章。靠前章介绍Spark学习环境的搭建。第2章介绍Spark的基本知识和架构。第3章介绍Spark内核底层的基础设施。第4章介绍SparkContext的初始化。第5章介绍Spark执行环境SparkEnv。第6章介绍Spark自身的存储体系。本章不同于其他书籍将存储的各个组件视为不同内容,而是将存储体系的内容凝聚起来。第7章介绍Spark的调度系统。第8章介绍Spark的计算引擎。第9章介绍Spark的部署模式。靠前0章介绍Spark的API。Spark从表面上看与之前版本大的不同是API,所以本章拿个别API的实现作为例子,分析其源码实现,让读者理解新老API之间的异同。

2019-04-15

趣学算法_趣学算法

非常好的一本书,图解多,思路清晰,不仅讲了问题分析算法设计的过程,还讲了如何优化算法,不同的数据结构上设计算法会有什么样的复杂度,分析-设计-图解-伪码解-实际代码-follow up的形式,便于很快复习集中主要刷题套路...。值得推荐。

2019-04-15

Python3网络爬虫开发实战

网红博主的教材!写的深入浅出,爬虫入门必读!崔神的教材从内容质量到章节安排,看来都是经过精心打磨的!人工智能崛起,数据不可或缺,爬虫就是最好的数据获取方式,学好爬虫走遍天下!

2019-04-15

hbase-2.0.5 linux 安装包

自己公司集群用的hbase安装包,因为项目比较多,因此需要经常搭建集群,放到这里,以自用。

2019-04-18

jdk1.8_144

自用的jdk1.8,每次用都要找半天,放到这里算是自存。

2019-04-18

数学之美 --吴军

几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔可夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣。 今年,作者吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式 —— 如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。

2019-04-17

用户体验要素:以用户为中心的产品设计(原书第2版)

《用户体验要素:以用户为中心的产品设计(原书第2版)》是AJAX之父Jesse James Garrett的经典之作。本书用简洁的语言系统化地诠释了设计、技术和商业融合是最重要的发展趋势。全书共8章,包括关于用户体验以及为什么它如此重要、认识这些要素、战略层、范围层、结构层、框架层、表现层以及要素的应用。 《用户体验要素:以用户为中心的产品设计(原书第2版)》用清晰的说明和生动的图形分析了以用户为中心的设计方法(UCD)来进行网站设计的复杂内涵,并关注于思路而不是工具或技术,从而使你的网站具备高质量体验的流程。

2019-04-17

Spark大数据分析核心概念技术及实践OCR

本书是大数据和Spark方面的一本简明易懂的手册。它将祝你学习如何用Spark来完成很多大数据分析人物。它覆盖了高效利用spark所需要的一切内容。作者首先介绍Scala语法,然后介绍作为基石的Spark Core,再对Spark的各大组件Streaming、SQL、Mlib、GraphX进行详细介绍,最后讲解Spark集群管理。书中不仅给出了丰富的示例代码,还对Spark的核心概念和基本原理进行了较为全面的介绍,然你不仅知其然且知其所以然。通过本书,你可以快速上手Spark,把Spark应用到实践中。

2019-04-17

Hadoop权威指南-大数据的存储与分析-第4版-修订版-升级版

本书结合理论和实践,由浅入深,全方位介绍了Hadoop 这一高性能的海量数据处理和分析平台。全书5部分24 章,第Ⅰ部分介绍Hadoop 基础知识,第Ⅱ部分介绍MapReduce,第Ⅲ部分介绍Hadoop 的运维,第Ⅳ部分介绍Hadoop 相关开源项目,第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce 的数据处理API)。本书是一本专业、全面的Hadoop 参考书和工具书,阐述了Hadoop 生态圈的新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop 集群的安装和运维。

2019-04-17

Elasticsearch技术解析与实战

Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 我们建立一个网站或应用程序,并要添加搜索功能,但是想要完成搜索工作的创建是非常困难的。我们希望搜索解决方案要运行速度快,我们希望能有一个零配置和一个完全免费的搜索模式,我们希望能够简单地使用JSON通过HTTP来索引数据,我们希望我们的搜索服务器始终可用,我们希望能够从一台开始并扩展到数百台,我们要实时搜索,我们要简单的多租户,我们希望建立一个云的解决方案。因此我们利用Elasticsearch来解决所有这些问题以及可能出现的更多其它问题。 大数据时代有三大问题需要解决,分布式数据存储、分布式数据计算、分布式搜索引擎,而ElasticSearch就是分布式搜索引擎中的佼佼者。

2019-04-17

mysql必知必会

《MySQL必知必会》MySQL是世界上最受欢迎的数据库管理系统之一。书中从介绍简单的数据检索开始,逐步深入一些复杂的内容,包括联结的使用、子查询、正则表达式和基于全文本的搜索、存储过程、游标、触发器、表约束,等等。通过重点突出的章节,条理清晰、系统而扼要地讲述了读者应该掌握的知识,使他们不经意间立刻功力大增

2019-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除