自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

欲速求达,三思后行

基本上是本人的读书笔记,由于本人水平有限,阅读时请谨慎。

  • 博客(15)
  • 收藏
  • 关注

原创 CUDA8.0安装的问题

Facebook Recruiting IV: Human or Robot?本项目分析的是Kaggle和Facebook联合于2014年举办的一个竞赛题目,举办方希望参赛者根据所提供的一组投标用户数据以及相应的各场拍卖数据,建立机器学习模型以分辨哪些投标用户是人类,哪些用户是机器人。

2017-12-10 01:35:56 1667

原创 Kaggle笔记:Porto Seguro’s Safe Driver Prediction(2)

Porto Seguro’s Safe Driver Prediction4.特征工程上一部分完成了对数据的清洗与分析工作,完成这些准备工作之后,接下来准备进行特征工程。特征工程包括对原始数据特征进行检测、变形、筛选,以及构筑新的可能对建立模型有帮助的特征,是机器学习的重要步骤。首先,读入必要的数据与模块:import pandas as pdimport numpy as nptest = pd

2017-11-21 15:40:58 3246 2

原创 Kaggle笔记:Porto Seguro’s Safe Driver Prediction(1)

Porto Seguro’s Safe Driver Prediction这是Kaggle在9月30日开启的一个新的比赛,举办者是巴西最大的汽车与住房保险公司之一:Porto Seguro。该比赛要求参赛者根据汽车保单持有人的数据建立机器学习模型,分析该持有人是否会在次年提出索赔。比赛所提供的数据均已进行处理,由于数据特征没有实际意义,因此无法根据常识或业界知识简单地进行特征工程。1.数据准备首先,

2017-11-20 17:49:50 8482 11

原创 读书笔记:数据结构与算法-Python语言描述【第2章:抽象数据类型和Python类】

第2章:抽象数据类型和Python类2.1 抽象数据类型抽象数据类型(Abstract Data Type,ADT)是计算机领域中被广泛接受的一种思想和方法,也是一种用于设计和实现程序模块的有效技术。ADT的基本思想是抽象,或者说是数据抽象。(数据抽象,与函数定义实现的计算抽象或称计算抽象,所相对应。)2.1.1 数据类型与数据构造。类型(数据类型),是程序设计领域最重要的基本概念之一,在程序里描述

2017-09-19 16:51:52 1399

原创 读书笔记:机器学习实战【第7章:利用Adaboost元算法提高分类性能】

利用Adaboost元算法提高分类性能当做重要决定的时候,大家可能都会考虑吸取多个专家,而非一个人的意见,同样的思想用在机器学习中就是元算法(meta-algorithm)背后的思路,元算法是对其他算法进行组合的一种方式。7.1 基于数据集多重抽样的分类器前面已经介绍了五种不同的分类算法,它们各有优缺点,我们自然可以将不同的分类器组合起来,而这种组合结果则被称为集成方法(ensemble metho

2017-09-16 19:46:13 700

原创 读书笔记:机器学习实战【第5章:Logistic回归】

利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。Logistic回归的一般过程:收集数据准备数据:要求数据类型为数值型,结构化则最佳。分析数据:采用任意方法对数据进行分析。训练算法:大部分时间将用于训练,目的是找到最佳的分类回归系数。测试算法:一旦训练步骤完成,分类就会很快。使用算法:首先我们需要一些输入数据,并将其转换成对应的结构化数值

2017-09-08 17:06:42 467

原创 读书笔记:SQL必知必会 【第13-15课】

第13课 创建高级联结13.1 使用表别名SQL除了可以对列名和计算字段使用别名,还允许给表名起别名,这样做有两个主要理由:缩短SQL语句;允许在一条SELECT语句中多次使用相同的表下例是使用了别名的SELECT语句:mysql> SELECT cust_name,cust_contact -> FROM Customers AS C, Orders AS O,OrderItems

2017-09-03 18:35:04 467

原创 读书笔记:SQL必知必会【第10课-第12课】

第10课 分组数据这一课介绍如何分组数据,以便汇总表内容的子集。10.1 数据分组从上一课得知,使用SQL的聚集函数可以汇总数据,这样,我们就能对行进行计数,计算和取平均数,不检索所有数据就能取最值。目前为止所有的计算都是在表的所有数据或者匹配特定的WHERE子句的数据上进行的。本课则说明使用分组,对每个组聚集计算。10.2 创建分组分组是使用SELECT语句的GROUP BY子句创建的,下例:my

2017-09-01 17:03:03 484

原创 读书笔记:SQL必知必会【第7课-第9课】

第7课 创建计算字段7.1 计算字段存储在数据库中的数据一般不是应用程序所需要的格式,这里举几个例子:需要显示公司名,同时还需要现实公司的地址,但这两个信息存储在不同的表列当中。城市,州和邮政编码存储在不同的列中,单是邮件标签打印程序需要把它们作为一个有恰当格式的字段检索出来。列数据是大小写混合的,但是报表程序需要把所有的数据按大写表示出来。物品订单表存储物品的价格和数量,不存储每个物品的总

2017-08-30 21:13:16 288

原创 读书笔记:机器学习实战【第4章:朴素贝叶斯】

读书笔记:机器学习实战【第4章:朴素贝叶斯】4.1 基于贝叶斯决策理论的分类方法朴素贝叶斯: 优点:在数据较少的情况下依然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 适用数据类型:标称型数据朴素贝叶斯是贝叶斯决策理论的一部分,贝叶斯决策理论的核心思想是选择具有最高概率的决策。4.2 条件概率4.3 使用条件概率分类基本都是最基本的概率论知识,跳过。4.4 使用朴素贝叶

2017-08-26 14:46:38 389

原创 读书笔记:机器学习实战【第3章 决策树】

读书笔记:机器学习实战【第3章 决策树】决策树的优点: 计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点: 可能会产生过度匹配问题适用数据类型:数值型,标称型。3.1 决策树的构造在构造决策树时,要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类的时候起决定作用。为了找到决定性特征,划分出最好的结果,我们必须苹果每个特征,而完成测试之后,原始数据集就被

2017-08-21 12:13:29 664

原创 读书笔记:SQL必知必会【第4课~第6课】

第4课 过滤数据这一课程讲授如何使用SELECT语句的WHERE子句指定搜索条件。4.1 使用WHERE子句数据库表一般包含大量的数据,很少需要检索表中的所有行,通常只会根据特定操作或报告的需要提取表数据的子集,只检索所需数据需要指定搜索条件,也称为过滤条件。在SELECT语句中,数据根据WHERE子句中指定的搜索条件进行过滤,WHERE子句在表名(FROM子句)之后给出,如下所示:mysql> S

2017-08-13 23:13:12 277

原创 读书笔记:SQL必知必会【第1-3课】

第一课 了解SQL1.1 数据库基础数据库:保存有组织的数据的容器(通常是一个文件或一组文件),注意不要把数据库软件与数据库勿用,通常数据库软件应称为数据库管理系统(DBMS)。表:存储某种特定类型数据的结构化清单,每个表都有唯一的名字来标识自己。模式:关于数据库和表的布局以及特性的信息。列:表中的一个字段。所有表都是由一个或多个列组成的。数据类型:所允许的数据的类型,每个表列都有相应的数据类型,它

2017-08-13 20:28:08 319

原创 读书笔记:利用Python进行数据分析【第四章:NumPy基础-array数组】

读书笔记:利用Python进行数据分析【第四章:NumPy基础-array数组】不要误会,并不是作者不识数,1后面直接接了个4。 主要是这本书的第二章其实是一些范例,而且都是从很高的层次来提起兴趣的,可能后面全学完了回来仔细研读更好一些。而第三章主要讲Ipython,不过这个版本的Enthought Canopy已经有自己的IDE了。 总之,接下来就直接第四章了。Numpy是高性能科学计算和数据

2017-08-12 21:13:15 1131

原创 读书笔记:利用Python进行数据分析【第一章:准备工作】

今天开始学习python,这本数据分析和机器学习实战同步学习,也会在学习过程中同步做读书笔记。不过话说回来,第一章准备工作没什么好写的就是了。作为准备工作,要安装书中提到的Python科学计算环境:EPDfree。EPD(Enthought Python Distribution)是集成了大量Python科学计算模块(包括常用的Numpy,pandas等等)的开

2017-08-12 19:23:08 846 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除