推荐给大数据学习者的八本书,还有详细的系统路线

大数据 同时被 3 个专栏收录
130 篇文章 0 订阅
130 篇文章 0 订阅
129 篇文章 0 订阅

关于大数据、人工智能的好书不多,每每流连于亚马逊等网站半天,却没找到值得读的,估计很多人跟我一样吧,今天推荐最近读过的八本,有科普类的,也有实操的,实在言之无物的就不提了!

 

1、吴军的《智能时代》 难度低

笔者专门写过读书笔记,非常通俗的读物,老少咸宜。

2、李开复的《人工智能》 难度低

笔者专门写过读书笔记,非常通俗的读物,老少咸宜。

3、李彦宏等《智能革命》 难度低

有些内容,但逻辑混乱,估计很多人一起写的缘故,但还是可以读读,毕竟能了解百度的一些进展。

4、郑泽宇《TensorFlow实战Google深度学习框架》 难度中

深度学习Tensorflow入门之书,中文版没看到更好的了,还有本《Tensorflow实战》很垃圾,注意这是实操之书,要读代码。

5、无名英雄《斯坦福大学2014 机器学习教程个人笔记》电子书 难度中上

对于机器学习有新的领悟,其实比很多出版的机器学习的书还好,同步可以看教学视频,自己晚上搜,注意这是实操之书,要有统计的一些背景。

6、谢朝阳《云计算规划、实施和运维》 难度中下

参加一个会议被赠送的书,算是读完了,但一直没找到能把云计算发展体系讲得深入浅出的好书,有推荐的可以推荐下。

7、马欢、刘晨译《DAMA数据管理知识体系指南》 难度中

一直搞数据管理却没看过这本书,这次算是读透了,有新的领悟,具有实操经验的人士看了会有较深感悟,否则有些地方会觉得云里雾里。

8、Danette McGilvray《数据质量工程实践》 难度中

绝版了,买了打印的书,体系写得不错,可惜纸张太差。

9、《衡水重点中学状元手写笔记》,英语,数学,语文

为了孩子,向新时代的学霸学习。

欢迎大家反馈留言推荐大数据、云计算、人工智能的好书,读到好书,一定会写笔记分享出来,大家共同进步!

 

大数据学习方向

一、大数据运维之Linux基础

打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等。因为企业
中的项目基本上都是使用Linux环境下搭建或部署的。

1)Linux系统概述
2)系统安装及相关配置 
3)Linux网络基础 
4)OpenSSH实现网络安全连接 
5)vi文本编辑器

6)用户和用户组管理
7)磁盘管理 
8)Linux文件和目录管理 
9)Linux终端常用命令 
10)linux系统监测与维护

二、大数据开发核心技术 - Hadoop 2.x从入门到精通

大数据的基石:其一,分布式文件系统HDFS用于存储海量数据,无论是Hive、HBase或者Spark数据存储在其上面;其二是分布式资源管理框架
YARN,是Hadoop 云操作系统(也称数据系统),管理集群资源和分布式数据处理框架MapReduce、Spark应用的资源调度与监控;分布式并行计算框架
MapReduce目前是海量数据并行处理的一个最常用的框架。Hadoop 2.x的编译、环境搭建、HDFS Shell使用,YARN 集群资源管理与任务监控,MapReduce编
程,分布式集群的部署管理(包括高可用性HA)必须要掌握的。

一、初识Hadoop 2.x

1)大数据应用发展、前景
2)Hadoop 2.x概述及生态系统
3)Hadoop 2.x环境搭建与测试

二、深入Hadoop 2.x

1)HDFS文件系统的架构、功能、设计
2)HDFS Java API使用
3)YARN 架构、集群管理、应用监控
4)MapReduce编程模型、Shuffle过程、编程调优

三、高级Hadoop 2.x

1)分布式部署Hadoop 2.x
2)分布式协作服务框架Zookeeper 
3)HDFS HA架构、配置、测试
4)HDFS 2.x中高级特性
5)YARN HA架构、配置
6)Hadoop 主要发行版本(CDH、HDP、Apache)

 

三、大数据开发核心技术 - 大数据仓库Hive

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行
运行。其优点是学习成本低,可以通类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

一、Hive 初识入门

1)Hive功能、体系结构、使用场景
2)Hive环境搭建、初级使用 
3)Hive原数据配置、常见交互方式

二、Hive深入使用

1)Hive中的内部表、外部表、分区表
2)Hive 数据迁移
3)Hive常见查询(select、where、distinct、join、group by)
4)Hive 内置函数和UDF编程

三、Hive高级进阶

1)Hive数据的存储和压缩
2)Hive常见优化(数据倾斜、压缩等)

四、结合实际案例分析

1)依据业务设计表
2)数据清洗、导入(ETL) 
3)使用HiveQL,统计常见的网站指标

四、大数据协作框架 - Sqoop/Flume/Oozie

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL 
,Oracle ,Postgres等)中的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部
署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。

一、数据转换工具Sqoop

1)Sqoop功能、使用原则
2)将RDBMS数据导入Hive表中(全量、增量) 
3)将HDFS上文件导出到RDBMS表中

二、文件收集框架Flume

1)Flume 设计架构、原理(三大组件)
2)Flume初步使用,实时采集数据 
3)如何使用Flume监控文件夹数据,实时采集录入HDFS中 4)任务调度框架Oozie

三、Oozie功能、安装部署

1)使用Oozie调度MapReduce Job和HiveQL
2)定时调度任务使用

五、大数据Web开发框架 - 大数据WEB 工具Hue

Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通
过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。

1)Hue架构、功能、编译
2)Hue集成HDFS 
3)Hue集成MapReduce

4)Hue集成Hive、DataBase
5)Hue集成Oozie

六、大数据核心开发技术 - 分布式数据库HBase从入门到精通

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。HBase在
Hadoop之上提供了类似于Bigtable的能力,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大
规模结构化存储集群

一、HBase初窥使用

1)HBase是什么、发展、与RDBMS相比优势、企业使用
2)HBase Schema、表的设计
3)HBase 环境搭建、shell初步使用(CRUD等)

二、HBase 深入使用

1)HBase 数据存储模型
2)HBase Java API使用(CRUD、SCAN等)
3)HBase 架构深入剖析
4)HBase 与MapReduce集成、数据导入导出

三、HBase 高级使用

1)如何设计表、表的预分区(依据具体业务分析讲解)
2)HBase 表的常见属性设置(结合企业实际)
3)HBase Admin操作(Java API、常见命令)

四、进行分析

1)依据需求设计表、创建表、预分区
2)进行业务查询分析 
3)对于密集型读和密集型写进行HBase参数调优

七、大数据核心开发技术 - Storm实时数据处理

Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。 随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、
推荐系统、预警系统、金融系统(高频交易、股票)等等, 大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是
流计算技术中的佼佼者和主流。 按照storm作者的说法,Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Hadoop提供了map、reduce原语,使我
们的批处理程序变得简单和高效。 同样,Storm也为实时计算提供了一些简单高效的原语,而且Storm的Trident是基于Storm原语更高级的抽象框架,类似于基于
Hadoop的Pig框架, 让开发更加便利和高效。本课程会深入、全面的讲解Storm,并穿插企业场景实战讲述Storm的运用。 淘宝双11的大屏幕实时监控效果冲击
了整个IT界,业界为之惊叹的同时更是引起对该技术的探索。 可以自己开发升级版的“淘宝双11”?

1)Storm简介和课程介绍
2)Storm原理和概念详解 
3)Zookeeper集群搭建及基本使用 
4)Storm集群搭建及测试 
5)API简介和入门案例开发 
6)Spout的Tail特性、storm-starter及maven使用、Grouping策略 
7)实例讲解Grouping策略及并发 
8)并发度详解、案例开发(高并发运用) 
9)案例开发——计算网站PV,通过2种方式实现汇总型计算。 
10)案例优化引入Zookeeper锁控制线程操作 
11)计算网站UV(去重计算模式) 
12)【运维】集群统一启动和停止shell脚本开发 
13)Storm事务工作原理深入讲解 14)Storm事务API及案例分析

15)Storm事务案例实战之 ITransactionalSpout 
16)Storm事务案例升级之按天计算 
17)Storm分区事务案例实战 
18)Storm不透明分区事务案例实战 
19)DRPC精解和案例分析 
20)Storm Trident 入门
21)Trident API和概念
22)Storm Trident实战之计算网站PV
23)ITridentSpout、FirstN(取Top N)实现、流合并和Join
24)Storm Trident之函数、流聚合及核心概念State
25)Storm Trident综合实战一(基于HBase的State)
26)Storm Trident综合实战二
27)Storm Trident综合实战三
28)Storm集群和作业监控告警开发

八、Spark技术实战之基础篇 -Scala语言从入门到精通

为什么要学习Scala?源于Spark的流行,Spark是当前最流行的开源大数据内存计算框架,采用Scala语言实现,各大公司都在使用Spark:IBM宣布承诺大力推进
Apache Spark项目,并称该项目为:在以数据为主导的,未来十年最为重要的新的开源项目。这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台,
Scala具有数据处理的天然优势,Scala是未来大数据处理的主流语言

1)-Spark的前世今生
2)-课程介绍、特色与价值 
3)-Scala编程详解:基础语法 
4)-Scala编程详解:条件控制与循环 
5)-Scala编程详解:函数入门 
6)-Scala编程详解:函数入门之默认参数和带名参数 
7)-Scala编程详解:函数入门之变长参数 
8)-Scala编程详解:函数入门之过程、lazy值和异常 
9)-Scala编程详解:数组操作之Array、ArrayBuffer以及遍历数组 
10)-Scala编程详解:数组操作之数组转换

11)-Scala编程详解:Map与Tuple
12)-Scala编程详解:面向对象编程之类 
13)-Scala编程详解:面向对象编程之对象 
14)-Scala编程详解:面向对象编程之继承 
15)-Scala编程详解:面向对象编程之Trait 
16)-Scala编程详解:函数式编程 
17)-Scala编程详解:函数式编程之集合操作 
18)-Scala编程详解:模式匹配 
19)-Scala编程详解:类型参数 
20)-Scala编程详解:隐式转换与隐式参数 
21)-Scala编程详解:Actor入门

九、大数据核心开发技术 - 内存计算框架Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点。启用了内存分布数据集,除
了能够提供交互式查询外,它还可以优化迭代工作负载。Spark Streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断
(几秒),以类似batch批量处理的方式来处理这小部分数据

1)Spark 初识入门
2)Spark 概述、生态系统、与MapReduce比较
3)Spark 编译、安装部署(Standalone Mode)及测试
4)Spark应用提交工具(spark-submit,spark-shell) 
5)Scala基本知识讲解(变量,类,高阶函数) 
6)Spark 核心RDD
7)RDD特性、常见操作、缓存策略 
8)RDD Dependency、Stage常、源码分析
9)Spark 核心组件概述

10)案例分析
11)Spark 高阶应用
12)Spark on YARN运行原理、运行模式及测试
13)Spark HistoryServer历史应用监控
14)Spark Streaming流式计算
15)Spark Streaming 原理、DStream设计
16)Spark Streaming 常见input、out
17)Spark Streaming 与Kafka集成
18)使用Spark进行分析

十、大数据核心开发技术 - Spark深入剖析

1)Scala编程、Hadoop与Spark集群搭建、Spark核心编程、Spark内核源码深度剖析、Spark性能调优
2)Spark源码剖析 

十一、企业大数据平台高级应用

完成大数据相关企业场景与解决方案的剖析应用及结合一个电子商务平台进行实战分析,主要包括有: 企业大数据平台概述、搭建企业
大数据平台、真实服务器手把手环境部署、使用CM 5.3.x管理CDH 5.3.x集群

1)企业大数据平台概述
2)大数据平台基本组件 
3)Hadoop 发行版本、比较、选择
4)集群环境的准备(系统、基本配置、规划等) 
5)搭建企业大数据平台 
6)以实际企业项目需求为依据,搭建平台 
7)需求分析(主要业务) 
8)框架选择(Hive\HBase\Spark等)

9)真实服务器手把手环境部署
10)安装Cloudera Manager 5.3.x
11)使用CM 5.3.x安装CDH 5.3.x
12)如何使用CM 5.3.x管理CDH 5.3.x集群
13)基本配置,优化 
14)基本性能测试 
15)各个组件如何使用

十二、项目实战:驴妈妈旅游网大型离线数据电商分析平台

离线数据分析平台是一种利用hadoop集群开发工具的一种方式,主要作用是帮助公司对网站的应用有一个比较好的了解。尤其是在电商、旅游、银行、证券、游戏
等领域有非常广泛,因为这些领域对数据和用户的特性把握要求比较高,所以对于离线数据的分析就有比较高的要求了。 本课程讲师本人之前在游戏、旅游等公司
专门从事离线数据分析平台的搭建和开发等,通过此项目将所有大数据内容贯穿,并前后展示!

1)Flume、Hadoop、Hbase、Hive、Oozie、Sqoop、离线数据分析,SpringMVC,Highchat
2)Flume+Hadoop+Hbase+SpringMVC+MyBatis+MySQL+Highcharts实现的电商离线数据分析 
3)日志收集系统、日志分析、数据展示设计

十三、项目实战:基于1号店的电商实时数据分析系统

1)全面掌握Storm完整项目开发思路和架构设计
2)掌握Storm Trident项目开发模式
3)掌握Kafka运维和API开发、与Storm接口开发 
4)掌握HighCharts各类图表开发和实时无刷新加载数据 
5)熟练搭建CDH5生态环境完整平台

6)灵活运用HBase作为外部存储
7)可以做到以一己之力完成从后台开发(Storm、Kafka、Hbase开发) 
到前台HighCharts图表开发、Jquery运用等,所有工作一个人搞定! 
可以一个人搞定淘宝双11大屏幕项目!

十四、项目实战:基于美团网的大型离线电商数据分析平台

本项目使用了Spark技术生态栈中最常用的三个技术框架,Spark Core、Spark SQL和Spark Streaming,进行离线计算和实时计算业务模块的开发。实现了包括用
户访问session分析、页面单跳转化率统计、热门商品离线统计、 广告点击流量实时统计4个业务模块。过合理的将实际业务模块进行技术整合与改造,
该项目完全涵盖了Spark Core、Spark SQL和Spark Streaming这三个技术框架中几乎所有的功能点、知识点以及性能优化点。 仅一个项目,即可全面掌握Spark
技术在实际项目中如何实现各种类型的业务需求!在项目中,重点讲解了实际企业项目中积累下来的宝贵的性能调优 、troubleshooting以及数据倾斜解决方案等知识和技术

1)真实还原完整的企业级大数据项目开发流程:
项目中采用完全还原企业大数据项目开发场景的方式来讲解,
每一个业务模块的讲解都包括了数据分析、需求分析、方案设计、数据库设计、编码实现、功能测试、性能调优、troubleshooting与解决数据倾斜(后期运维)等环节
,真实还原企业级大数据项目开发场景。
让学员掌握真实大数据项目的开发流程和经验!

2)现场Excel手工画图与写笔记:所有复杂业务流程、架构原理
、Spark技术原理、业务需求分析、技术实现方案等知识的讲解
,采用Excel画图或者写详细比较的方式进行讲解与分析,
细致入微、形象地透彻剖析理论知识,帮助学员更好的理解、记忆与复习巩固。

十五、机器学习及实践

基于PyMC语言以及一系列常用的Python数据分析框架,如NumPy、SciPy和Matplotlib,通过概率编程的方式,讲解了贝叶斯推断的原理和实现方法。
该方法常常可以在避免引入大量数学分析的前提下,有效地解决问题。课程中使用的案例往往是工作中遇到的实际问题,有趣并且实用。回归等算法有较为深入的了解,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,熟悉并且掌握当下最流行的机器学习算法,如回归、决策树、SVM等,并通过代码实例来 展示所讨论的算法的实际应用。

1)Mahout、Spark MLlib概述 
2)机器学习概述 
3)线性回归及Mahout、SparkMLlib案例 
4)Logistic回归、softmax分类及Mahout、SparkMLlib案例 
5)KNN及Mahout、SparkMllib案例 
6)SVM及Mahout、SparkMllib案例 
7)决策树及Mahout、SparkMllib案例

8)随机森林及Mahout、SparkMllib案例 
9)GBDT及Mahout、SparkMllib案例 
10)KMeans及Mahout、SparkMllib案例 
11)贝叶斯及Mahout、SparkMllib案例 
12)集成学习 
13)特征处理及模型优化

十六、推荐系统

开发推荐系统的方法,尤其是许多经典算法,重点探讨如何衡量推荐系统的有效性。课程内容分为基本概念和进展两部分:前者涉及协同推荐、基于
内容的推荐、基于知识的推荐、混合推荐方法,推荐系统的解释、评估推荐系统和实例分析;后者包括针对推荐系统的攻击、在线消费决策、推荐系统和下一代互联网以及普适环境中的推荐

1)协同过滤推荐
2)基于内容的推荐
3)基于知识的推荐
4)混合推荐方法

5)推荐系统的解释 
6)评估推荐系统
7)案例研究

十七、分布式搜索引擎Elasticsearch开发

联网+、大数据、网络爬虫、搜索引擎等等这些概念,如今可谓炙手可热

1)Elasticsearch概念
2)Elasticsearch安装和插件介绍
3)Elasticsearch基本使用和简单查询 
4)Elasticsearch的Java客户端使用

5)Elasticsearch索引和Mapping 
6)Elasticsearch搜索深入 
7)Elasticsearch与Spring集成 
8)Elasticsearch实战

十八、大数据高并发系统架构实战方案(LVS负载均衡、Nginx、共享存储、海量数据、队列缓存 )

随着互联网的发展,高并发、大数据量的网站要求越来越高。而这些高要求都是基础的技术和细节组合而成的。

十九、大数据高并发服务器实战

随着Web技术的普及,Internet上的各类网站第天都在雪崩式增长。但这些网站大多在性能上没做过多考虑。当然,它们情况不同。有的是Web技术本身的原因(主
要是程序代码问题),还有就是由于Web服务器未进行优化。不管是哪种情况,一但用户量在短时间内激增,网站就会明显变慢,甚至拒绝放访问。要想有效地解决
这些问题,就只有依靠不同的优化技术。本课程就是主要用于来解决大型网站性能问题,能够承受大数据、高并发。主要涉及 技术有:nginx、tomcat、memcached、redis缓存、负载均衡等高级开发技术

 

大数据分析、数据可视化

二十、Tableau商业智能与可视化应用实战

Tableau的数据连接与编辑、图形编辑与展示功能,包括数据连接与管理、基础与高级图形分析、地图分析、高级数据操作、基础统计分析、如何与R集成进行高级分析、分析图表整合以及分析成果共享等主要内容。

1)什么是数据可视化? 
2)如何用图表讲故事
3)Tableau发展历程 
4)Tableau家族产品 
5)Tableau产品优势 
6)Tableau Desktop安装配置 
7)Tableau的导航与菜单 
8)Tableau设计流程最佳实践 
9)Tableau数据类型与文件 
10)Tableau数据源初探 
11)数据源深入

12)工作表
13)Tableau中的函数与计算
14)Tableau高级分析与项目实战
15)Tableau中的排序与筛选器
16)Tableau中的参数
17)Tableau图表分析
18)Tableau地图绘制与图像
19)Tableau 仪表盘和故事
20)项目一_教育网站指标评估
21)项目二_网站用户行为分析
22)项目三_零售行业进销存分析

二十一、Echarts从入门到上手实战

对数据可视化技术有一个全面、系统、深入的了解,最终达到能够利用Echarts图表结合后端数据进行前端可视化报表展示的目的,

1)数据可视化概述 
2)什么是数据可视化? 
3)经典可视化案例 
4)大数据可视化的价值 
5)数据可视化工具、案例、书籍 
6)Echarts概述 
7)Echarts特性介绍 
8)如何快速上手开发一个Echarts可视化图表 
9)如何阅读Echarts官方文档 
10)Echarts学习必备基础知识

11)Echarts3.x与Echarts2.x的区别 
12)Echarts基础架构与常见名词术语 
13)Echarts标准开发模板 
14)十大常见图表_小结 
15)Echarts图表高级
16)北上广最佳前10航行路线图
17)豆瓣最新热映电影排名分析
18)图表适用场景
19)数据可视化方法 
20)数据可视化误区

 

二十二、Vue.js快速上手

Vue.js是一套构建用户界面的轻量级MVVM框架,与其他重量级框架不同的是, Vue.js 的核心库只关注视图层,并且非常容易学习,很容易与其它前端技术或已有的项目整合。 本课程主要分两部分讲解:1.掌握Vue.js设计规范的语法; 

1)Vue.js简介和MVC、MVP以及MVVM架构
2)Vue.js介绍、开发工具的介绍以及HelloWorld程序演示
3)Vue.js的构造器和扩展
4)Vue实例的属性
5)Vue实例生命周期
6)计算属性及案例
7)方法调用
8)观察属性
9)文本、HTML插值
10)属性插值和表达式
11)指令的格式
12)条件指令
13)v-show指令
14)v-bind指令
15)列表渲染
16)过滤器
17)事件处理

18)事件修饰符
19)表单处理
20)自定义组件
21)过渡效果
22)动画效果
23)过渡和动画的回调函数
24)路由技术
25)混合
26)Render函数
27)单文件工程
28)单元测试
29)服务器端渲染
30)生产环境部署
31)动态评分案例
32)图片轮播案例
33)OLTP系统的管理界面
34)聊天室案例

 

 

 

在这里还是要推荐下我自己建的大数据学习群:199427210,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加

入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份2018最新的大数据进阶资料

和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。

 

  • 3
    点赞
  • 0
    评论
  • 12
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

随着数据科学的热门,数据的优化、整理以及如何处理不良数据成为人们关注的重点。本书通过处理不良数据,进行数据清理的案例,向读者展示了处理数据的方法。 本书共有19章,从6部分向读者展示了使用和清理不良数据背后的理论和实践。第1部分是Grubby的动手实践指南,它向读者介绍了驾驭、提取数据的方法,如何处理文本数据中的数据以及Web开发中碰到的数据问题。第2部分是让人充满意外的数据,它向读者介绍了数据也会“撒谎”。第3部分是方法,它向读者介绍了处理不良数据的一些方法。第4部分是数据存储和基础设施,它向读者介绍了如何存储数据。第5部分是数据的商业化,它向读者介绍了如何避免数据处理的一些误差。第6部分是数据策略,它向读者介绍了如何追踪数据、评估数据质量以及构建数据质量相关平台等。 本书适合数据科学家、数据处理和整理相关开发人员阅读。也适合想要进入数据处理领域的读者阅读。 第1章 从头说起:什么是噪音数据 1 第2章 是我的问题还是数据的问题 4 2.1 理解数据结构 5 2.2 校验 8 2.2.1 字段校验 8 2.2.2 值校验 9 2.2.3 简单统计的物理解释 10 2.3 可视化 11 2.3.1 关键词竞价排名示例 13 2.3.2 搜索来源示例 18 2.3.3 推荐分析 19 2.3.4 时间序列数据 22 2.4 小结 27 第3章 数据人看的不是机器看的 28 3.1 数据 28 3.1.1 问题:数据人看的 29 3.1.2 对数据的安排 29 3.1.3 数据分散在多个文件中 32 3.2 解决方案:编写代码 34 3.2.1 从糟糕的数据格式中读取数据 34 3.2.2 从多个文件中读取数据 36 3.3 附言 42 3.4 其他格式 43 3.5 小结 45 第4章 纯文本中潜在的噪音数据 46 4.1 使用哪种纯文本编码? 46 4.2 猜测文本编码格式 50 4.3 对文本规范化处理 53 4.4 问题:在纯文本中掺入了特定应用字符 55 4.5 通过Python处理文本 59 4.6 实践练习题 60 第5章 重组Web数据 62 5.1 你能获得数据吗 63 5.1.1 一般工作流程示例 64 5.1.2 Robots 协议 65 5.1.3 识别数据组织模式 66 5.1.4 存储离线版本 68 5.1.5 网页抓取信息 69 5.2 真正的困难 73 5.2.1 下载原始内容 73 5.2.2 表单、对话框和新建窗口 73 5.2.3 Flash 74 5.3 不利情况的解决办法 75 5.4 小结 75 第6章 检测撒谎者以及相互矛盾网上评论的困惑 76 6.1 Weotta公司 76 6.2 获得评论 77 6.3 情感分类 77 6.4 极化语言 78 6.5 创建语料库 80 6.6 训练分类器 81 6.7 分类器验证 82 6.8 用数据设计 84 6.9 经验教训 84 6.10 小结 85 6.11 信息资源 86 第7章 请噪音数据站出来 87 7.1 实例1:在制造业中减少缺陷 87 7.2 实例2:谁打来的电话 90 7.3 实例3:当“典型的”不等于“平均的” 92 7.4 经验总结 95 7.5 到工厂参观能成为试验的一部分吗 96 第8章 血、汗和尿 97 8.1 书呆子戏剧性工作交换 97 8.2 化学家如何整理数字 98 8.3 数据库都是我们的 99 8.4 仔细检查 102 8.5 生命短暂的漂亮代码库 103 8.6 改变化学家(和其他电子表单滥用者) 104 8.7 传递线(tl)和数据记录器(dr) 105 第9章 当数据与现实不匹配 107 9.1 到底是谁的报价机 108 9.2 股票分割、股利和调整 110 9.3 糟糕的现实 112 9.4 小结 114 第10章 偏差和误差的来源 115 10.1 估算上的偏差:一般性的问题 117 10.2 报告上的误差:一般性的问题 118 10.3 其他偏差来源 121 10.3.1 顶层编码/底部编码 121 10.3.2 Seam偏差 122 10.3.3 代理报告 123 10.3.4 样本选择 123 10.4 结论 124 参考文献 124 第11章 不要把完美和正确对立起来:噪音数据真是噪音吗 128 11.1 回忆学校生活 128 11.2 向着专业领域前进 129 11.2.1 政府工作 130 11.2.2 政府数据非常真实 131 11.3 应用实例—服务电话 132 11.4 继续前进 133 11.5 经验与未来展望 134 第12章 数据库攻击:什么时候使用文件 135 12.1 历史 135 12.2 建立我的工具箱 136 12.3 数据存储—我的路障 136 12.4 将文件作为数据存储器 137 12.4.1 简单的文件 138 12.4.2 文件处理一切 138 12.4.3 文件可包含任何数据形式 138 12.4.4 局部数据破坏 139 12.4.5 文件拥有很棒的工具 139 12.4.6 没有安装税 139 12.5 文件的概念 140 12.5.1 编码 140 12.5.2 文本文件 140 12.5.3 二进制数据 140 12.5.4 内存映射文件 140 12.5.5 文件格式 140 12.5.6 分隔符 142 12.6 文件支持的网络框架 143 12.6.1 动机 143 12.6.2 实现 145 12.7 反馈 145 第13章 卧库表,隐网络 146 13.1 成本分配模型 147 13.2 组合展开微妙的作用 150 13.3 隐藏网络的浮现 151 13.4 存储图表 151 13.5 利用Gremlin遍历图表 152 13.6 在网络属性里寻找价值 154 13.7 从多重数据模型角度考虑并使用正确的工具 155 13.8 致谢 155 第14章 云计算神话 156 14.1 关于云的介绍 156 14.2 何谓“云” 156 14.3 云和大数据 157 14.4 Fred的故事 157 14.4.1 起初一切都好 157 14.4.2 基础结构全部放在云端 158 14.4.3 随着规模增长,最初的扩展很轻松 158 14.4.4 麻烦出现了 158 14.4.5 需要提高性能 158 14.4.6 关键要提高RAID 10性能 158 14.4.7 重要的局部运行中断引发长期停机 159 14.4.8 有代价的RAID 10 159 14.4.9 数据规模增 160 14.4.10 地理冗余成为首选 160 14.4.11 水平扩展并不像想像得那么简单 160 14.4.12 成本显著增长 160 14.5 Fred的荒唐事 161 14.5.1 神话1:云是所有基础设施组件的解决方案 161 该神话与Fred故事的联系 161 14.5.2 神话2:云可以节约成本 161 该神话与Fred的故事的联系 162 14.5.3 神话3:通过RAID可以将cloud 10的性能提高至可接受的水平 163 该神话与Fred故事的联系 163 14.5.4 神话4:云计算使水平扩展轻松 163 该神话与Fred故事的联系 164 14.6 结论和推荐 164 第15章 数据科学的阴暗面 165 15.1 避开这些陷阱 165 15.1.1 对数据一无所知 166 15.1.2 应该只为数据科学家提供一种工具来解决所有问题 167 15.1.3 应该为了分析而分析 169 15.1.4 应该学会分享 169 15.1.5 应该期望数据科学家无所不能 170 15.2 数据学家在机构中的位置 170 15.3 最后的想法 171 第16章 如何雇佣机器学习专家 172 16.1 确定问题 172 16.2 模型测试 173 16.3 创建训练集 174 16.4 选择特征 175 16.5 数据编码 176 16.6 训练集、测试集和解决方案集 176 16.7 问题描述 177 16.8 回答问题 178 16.9 整合解决方案 178 16.10 小结 179 第17章 数据的可追踪性 180 17.1 原因 180 17.2 个人经验 181 17.2.1 快照 181 17.2.2 保存数据源 181 17.2.3 衡量数据源 182 17.2.4 逆向恢复数据 182 17.2.5 分阶段处理数据并保持各阶段的独立性 182 17.2.6 识别根源 183 17.2.7 寻找要完善的区域 183 17.3 不变性:从函数程序设计借来的理念 183 17.4 案例 184 17.4.1 网络爬虫 184 17.4.2 改变 185 17.4.3 聚类 185 17.4.4 普及度 185 17.5 小结 186 第18章 社交媒体:是可抹去的印记吗 187 18.1 社交媒体:到底是谁的数据 188 18.2 管控 188 18.3 商业重组 190 18.4 对沟通和表达的期望 190 18.5 新的最终用户期望的技术含义 192 18.6 这个行业是做什么的 194 18.6.1 验证API 195 18.6.2 更新通知API 195 18.7 最终用户做什么 195 18.8 我们怎样一起工作 196 第19章 揭秘数据质量分析:了解什么时候数据足够优质 197 19.1 框架介绍:数据质量分析的4个C 198 19.1.1 完整性 199 19.1.2 一致性 201 19.1.3 准确性 203 19.1.4 可解释性 205 19.2 结论 208
©️2021 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值