JasoninDataPlanet-CSDN博客

原创用Git进行版本控制

用Git进行版本控制1. 什么是版本控制？1.1 版本控制的定义版本控制：是指对软件开发过程中各种程序代码、配置文件及说明文档等文件变更的管理。三大最热门的版本控制系统：Git，Subversion，Mercurial版本控制系统模型：集中式模型-所有用户都连接到一个中央的主仓库（master repository）分布式模型-每个用户都在自己的计算机上拥有完整的仓库小结：版本...

2019-11-27 23:09:02 419

原创《数据科学家访谈录》读书笔记1-5

数据科学家访谈录第1章重要问题的取舍RelateIQ产品部副总裁DJ PatilDJ Patil"数据科学家"术语创造者，哈佛商业周刊文章《数据科学家：21世纪最诱人的工作》（Data Scientist:Sexiest Job of the 21st Century）作者。教育背景：加利福尼亚大学圣地亚哥分校数学学士学位，马里兰州立大学应用数学博士学位。博士期间主要研究非线性动态过程...

2019-07-23 08:41:53 684

原创《Sklearn与TensorFlow机器学习实用指南》学习笔记第2章一个完整的机器学习项目

《Sklearn与TensorFlow机器学习实用指南》学习笔记第2章一个完整的机器学习项目案例项目主要步骤：1、项目概述 2、获取数据 3、发现并可视化数据，发现规律 4、为机器学习算法准备数据 5、选择模型，进行训练 6、微调模型 7、给出解决方案 8、部署、监控、维护系统使用真实数据一些可以查找数据的地方：流行的开源数据仓库：UC Irvine Machine Learnin...

2019-05-02 19:23:36 910

原创《Sklearn与TensorFlow机器学习实用指南》学习笔记第1章机器学习概览

《Sklearn与TensorFlow机器学习实用指南》学习笔记第1章机器学习概览什么是机器学习？机器学习是通过编程让计算机从数据中进行学习的科学（和艺术）。广义概念：机器学习是让计算机具有学习的能力，无需进行明确编程。工程性概念：计算机程序利用经验E学习任务T，性能是P，如果针对任务T的性能P随着经验E不断增长，则称为机器学习。为什么使用机器学习？使用机器学习方法挖掘大量数据，可...

2019-05-02 19:22:17 304

原创《利用Python进行数据分析》学习笔记 NumPy高级应用

附录A NumPy高级应用A.1 ndarray对象的内部机理NumPy的ndarray提供了一种将同质数据块（可以是连续或跨越）解释为多维数组对象的方式。数据类型（dtype）决定了数据的解释方式，比如浮点数、整数、布尔值等。ndarray如此强大的部分原因是所有数组对象都是数据块的一个跨度视图（strided view）。ndarray不只是一块内存和一个dtype，它还有跨度...

2019-04-24 16:27:33 216

原创《利用Python进行数据分析》学习笔记第14章数据分析案例

第14章数据分析案例14.1 来自Bitly的USA.gov数据2011年，URL缩短服务Bitly跟美国政府网站USA.gov合作，提供了一份从生成.gov或.mil短链接的用户那里收集来的匿名数据。在2011年，除实时数据之外，还可以下载文本文件形式的每小时快照。以每小时快照为例，文件中各行的格式为JSON（即JavaScript Object Notation，这是一种常用的W...

2019-04-24 16:27:07 363

原创《利用Python进行数据分析》学习笔记第13章 Python建模库介绍

第13章 Python建模库介绍13.1 pandas于模型代码的接口模型开发的通常工作流是使用pandas进行数据加载和清洗，然后切换到建模库进行建模。开发模型的重要一环是机器学习中的“特征工程”。它可以描述从原始数据集中提取信息的任何数据转换或分析，这些数据集可能在建模中有用。pandas与其它分析库通常是靠NumPy的数组联系起来的。将DataFrame转换为NumPy数组，可以...

2019-04-24 16:26:36 369

原创《利用Python进行数据分析》学习笔记第12章 pandas高级应用

《利用python进行数据分析》第12章 pandas高级应用12.1 分类数据背景和目的在数据仓库中，最好的方法是使用所谓的包含不同值的维表（Dimension Table），将主要的参数存储为引用维表整数键：可以使用take方法存储原始的字符串Series：用分类进行计算Seed ( )方法改变随机数生成器的种子，可以在调用其他随机模块函数之前调用此函数。用...

2019-04-23 19:28:08 278

原创《利用Python进行数据分析》学习笔记第11章时间序列

第11章时间序列时间序列数据的意义取决于具体的应用场景，主要有以下几种：时间戳（timestamp），特定的时刻。固定时期（period），如2007年1月或2010年全年。时间间隔（interval），由起始和结束时间戳表示。时期（period）可以被看做间隔（interval）的特例。实验或过程时间，每个时间点都是相对于特定起始时间的一个度量。11.1 日期和时间数据...

2019-04-23 18:15:13 590

原创《利用Python进行数据分析》读书笔记第10章数据聚合与分组运算

第10章数据聚合与分组运算10.1 GroupBy机制split-apply-combine（拆分-应用-合并）。第一阶段，pandas对象（无论是Series、DataFrame还有其他的）中的数据会根据你所提供的一个或多个键被拆分（split）为多组。拆分操作是在对象的特定轴上执行。分组键可以有多种形式，且类型不必相同：列表或数组，其长度与待分组的轴一样。表示Dat...

2019-04-23 16:02:34 436

原创《利用Python进行数据分析》学习笔记第9章绘图和可视化

第9章绘图和可视化9.1 matplotlib API入门Figure和Subplotmatplotlib的图像都位于Figure对象中，用plt.figure创建一个新的Figure通过空Figure绘图，必须用add_subplot创建一个或多个subplot才行：执行一条绘图命令，matplotlib会在最后一个用过的subplot（如果没有则创建一个）上进行...

2019-04-23 15:28:23 292

原创《利用Python进行数据分析》学习笔记第8章数据规整：聚合、合并和重塑

第8章数据规整：聚合、合并和重塑8.1 层次化索引常见的数据层次化结构有两种，一种是表格，一种是“花括号”，表格在行列方向上均有索引（类似于DataFrame），花括号结构只有“列方向”上的索引（类似于层次化的Series），结构更加偏向于（Series-stack，方便记忆）。stack函数会将数据从“表格结构”变成“花括号结构”，即将其行索引变成列索引，反之，unstack函数将数据...

2019-04-23 15:15:20 279

原创《利用Python进行数据分析》学习笔记第7章数据清洗和准备

第7章数据清洗和准备7.1 处理缺失数据pandas使用浮点值NaN（Not a Number）表示缺失数据，我们称其为哨兵值。缺失数据处理的函数：滤除缺失数据对于一个series，dropna返回一个仅含非空数据和索引值的series。data.dropna() = data[data.notnull()]。对于DataFrame对象，dropna默认丢弃任何含有缺...

2019-04-23 14:49:48 287

原创《利用Python进行数据分析》学习笔记第6章数据加载、存储与文件格式

第6章数据加载、存储与文件格式6.1 读写文本格式的数据逐块读取文本文件若想读取几行（避免读取整个文件），通过nrows进行指定即可。要逐块读取文件，可以指定chunksize（行数）。将数据写出到文本格式利用DataFrame的to_csv方法，可以将数据写到一个以都好分隔的文件中。处理分隔符格式对于任何单字符分隔符文件，可以直接使用Python内置的cs...

2019-04-23 14:11:16 242

原创《利用Python进行数据分析》学习笔记第5章 pandas入门

第5章 pandas入门pandas含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用，如数值计算工具NumPy和SciPy，分析库statsmodels和scikit-learn，和数据可视化库matplotlib。pandas是基于NumPy数组构建的，特别是基于数组的函数和不使用for循环的数据处理。pandas是专门为处理表格和混杂数据设...

2019-04-23 13:58:00 363

原创《利用Python进行数据分析》学习笔记第4章 NumPy基础：数组和矢量计算

第4章 NumPy基础：数组和矢量计算NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下：ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数（无需编写循环）。用于读写磁盘数据的工具以及用于操...

2019-04-23 11:05:18 507

原创《利用Python进行数据分析》学习笔记第3章 Python的数据结构、函数和文件

第3章 Python的数据结构、函数和文件3.1 数据结构和序列元组元组是固定长度，不可改变的Python序列对象。创建元组的最简单方式，是用逗号分隔一列值：当用复杂的表达式定义元组，最好将值放到圆括号内，如下所示：用tuple可以将任意序列或迭代器转换成元组：可以用方括号访问元组中的元素。和C、C++、JAVA等语言一样，序列是从0开始的：元组中...

2019-04-23 10:29:10 364

原创《利用Python进行数据分析》学习笔记第2章 Python语法基础，IPython和Jupyter Notebooks

第2章 Python语法基础，IPython和Jupyter Notebooks2.1 Python解释器Python是解释性语言。Python解释器同一时间只能运行一个程序的一条语句。要退出Python解释器返回终端，可以输入exit()或按Ctrl-D。2.2 IPython基础运行IPython Shell可以通过输入代码并按Return（或Enter），运行任意Pyt...

2019-04-22 11:08:27 525

原创《利用Python进行数据分析》学习笔记第1章准备工作

写在最前面：此学习笔记主要对机械工业出版社出版的《利用Python进行数据分析·第2版》，及SeanCheney在简书平台上对此书的翻译内容进行学习和记录。第一章准备工作1.1 本书的内容Python分析的数据：结构化数据（structured data）表格型数据，其中各列可能是不同的类型（字符串、数值、日期等）。比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的那些...

2019-04-22 09:41:36 226

jasonzhang0105的博客