数据池塘

知乎专栏「数据池塘」:https://zhuanlan.zhihu.com/datapool

【数据池塘】

欢迎关注我的知乎专栏【数据池塘】,专注于分享机器学习、数据挖掘相关内容:https://zhuanlan.zhihu.com/datapool

2018-11-30 22:29:07

阅读数 82

评论数 0

我的 Hive 为什么跑不起来/跑得慢?看看是不是少了这几行代码?

《饮食男女》开头说:“人生不能像做菜,把所有的料都准备好了才下锅。” 但做大数据挖掘不一样,MapReduce 不同于人生,一定要把准备工作做好了,才能顺利运行后面的步骤。如果你的 HiveQL 代码没毛病,却一运行就出现 Fail 提示,可以看看,是不是少了下面哪项准备工作? 指定队列 ...

2018-11-30 22:26:54

阅读数 615

评论数 0

Java面试常问基础知识(持续更新)

欢迎关注我的知乎专栏【数据池塘】,专注于分享机器学习,数据挖掘相关内容:HTTPS://zhuanlan.zhihu.com/datapool 本文中的知识都是我自己或同学在面试过程中常被问到的,在此整理记录一下比较好的答案。 1,简述JVM的内存模式。 JVM内存空间包含:方法区,爪哇的堆...

2018-08-04 20:27:58

阅读数 88

评论数 0

用 Python 检验数据正态分布的几种方法

什么是正态分布 关于什么是正态分布,早在中学时老师就讲过了。通俗来讲,就是当我们把数据绘制成频率直方图,所构成曲线的波峰位于中间,两边对称,并且随着往两侧延伸逐渐呈下降趋势,这样的曲线就可以说是符合数学上的正态分布。由于任何特征的频率总和都为100%或1,所以该曲线和横轴之间部分的面积也为100...

2018-07-27 14:02:14

阅读数 9125

评论数 2

训练及优化神经网络基本流程之第0到6步

在之前的笔记中,我记录过《神经网络的代价函数及反向传播算法》,以及使用BP算法(反向传播算法)的一点细节。 这篇笔记想简短地总结记录一下训练并优化神经网络的几个步骤: 第零步:之所以写了个第零步,是想记录一下如何搭建神经网络,毕竟要先有网络才能谈后续的训练和优化。关于构建问题之前也有过记录:《...

2018-07-19 20:19:17

阅读数 1027

评论数 0

【LintCode】算法题 1443. 最长AB子串

描述给你一个只由字母'A'和'B'组成的字符串s,找一个最长的子串,要求这个子串里面'A'和'B'的数目相等,输出该子串的长度。这个子串可以为空。s的长度n满足 2<=n<=1000000。样例给定s="ABAAABBBA&qu...

2018-06-21 19:41:10

阅读数 632

评论数 0

基于 XGBoost 对 Santander 银行用户购买行为进行预测

Santander Product Recommendation 是我去年做的一个数据挖掘 project,简单来说就是,给了一定量的数据,用合适的算法对这些数据进行建模分析,给出预测,从而挖掘出有价值的信息。这也是目前互联网金融公司重点关注的工作内容之一,由于最近在准备面试,回顾之前做过的项目,...

2018-06-11 12:08:31

阅读数 1340

评论数 1

NLP 带你分析 —— 扎克伯格在听证会上说了什么?

蹭一下这几天扎克伯格因为 Facebook 信息泄漏事件,坐上美国参议院委员会听证会的热度,我们用 NLP 手段来分析一下听证会上的对话内容,看看扎克伯格到底说了什么?我是在 Jupyter 里进行分析的,需要的包有:import pandas as pd import numpy as np i...

2018-06-11 12:04:26

阅读数 258

评论数 0

BP神经网络算法:将参数矩阵向量化

上一篇《机器学习:神经网络的代价函数及反向传播算法》记录了如何使用反向传播算法计算代价函数的导数,其中一个细节就是需要把参数的矩阵表达式展开成向量的形式,以便在后来使用高级的优化算法。Ng 老师在讲展开参数(Unrolling Parameters)这部分时,比较粗略。自己补了一下视频里提到的内容...

2018-04-16 02:57:45

阅读数 471

评论数 0

机器学习:神经网络的代价函数及反向传播算法

在《机器学习:神经网络的模型构建》中,我记录了神经网络的一些基础知识,包括神经网络的逻辑单元、模型表示、前向传播等等。这篇笔记中,我会整理神经网络的代价函数以及反向传播算法~那么如何在给定的训练集下,来为神经网络拟合参数呢?和之前学习的大多数算法一样,要从代价函数开始讨论起了。神经网络在分类中的应...

2018-04-15 03:43:57

阅读数 291

评论数 0

Kaggle 数据清洗挑战 Day 5 - 处理不一致数据

今天是 Kaggle 数据清洗挑战的第五天,转眼最后一天啦!这次任务是处理拼写不一致的数据,例如“康涅狄格州”可能被记录为 “Connecticut”、“Coon.” 或 “Conecticutt”,这些实际代表是同一个值,而机器会将他们识别为不同的对象。今天用一个简单的方法来整理这些拼写不一致的...

2018-04-14 03:12:00

阅读数 251

评论数 0

Kaggle 数据清洗挑战 Day 4 - 字符编码(Character Encoding)处理

今天是 Kaggle 数据清洗挑战的第四天,任务是对字符进行编码处理~分为四个部分来学习:Get our environment set upWhat are encodings?Reading in files with encoding problemsSaving your files wi...

2018-04-14 03:10:30

阅读数 194

评论数 0

Kaggle 数据清洗挑战 Day 3 - 快速解析日期(date)数据

今天是 Kaggle 数据清洗挑战的第三天,任务是解析 date 型数据。相信我们都遇到过此类情况,拿到的数据集中有需要分析的日期数据,但它们的类型是 String,不便作图,也不适合作为一个 factor 帮助我们进行预测。也可能你拿到的是 Timestamp 类型的数据(如:2005-10-3...

2018-03-30 06:16:20

阅读数 316

评论数 0

Kaggle 数据清洗挑战 Day 2 - 数据缩放及标准化处理

今天是 Kaggle 数据清洗挑战的第二天,任务是进行数据缩放(scaling)及标准化处理(normalization),分为四个部分:Get our environment set upScaling vs. Normalization: What's the difference?Pract...

2018-03-30 06:15:31

阅读数 205

评论数 0

Kaggle 数据清洗挑战 Day 1 - 手把手教你五步处理缺失值

前些天报名参加了 Kaggle 的 Data Cleaning 5天挑战,5天的任务如下:Day 1: Handling missing valuesDay 2: Data scaling and normalizationDay 3: Cleaning and parsing datesDay ...

2018-03-28 04:35:12

阅读数 1051

评论数 0

机器学习:神经网络的模型构建

什么是神经网络神经网络是一种模拟人脑工作原理,从而实现类人工智能的机器学习技术,支持处理图像、文本、语音以及序列多种类型的数据,可以实现分类、回归和预测等。简单的神经元:逻辑单元(Logistic Unit)由于神经网络建立在很多个神经元的基础上,其中每一个神经元都是一个学习模型,这些神经元叫做激...

2018-03-28 04:34:18

阅读数 1025

评论数 0

机器学习:用正规方程法求解线性回归

求解线性回归最常用的两个方法是:梯度下降法和最小二乘法,之前在文章《机器学习:用梯度下降法实现线性回归》中介绍了梯度下降法的工作流程等,这篇文章着重介绍最小二乘法的使用。由于最小二乘法是基于正规方程的,所以也被称为正规方程法。什么是最小二乘法最小二乘法是一种数学优化技术,它通过最小化误差的平方和寻...

2018-03-25 01:38:04

阅读数 323

评论数 0

机器学习:分类(Classification)算法

在目前的机器学习工作中,最常见的三种任务就是:回归分析分类分析聚类分析这篇文章的重点是分类(Classification)在机器学习领域中的应用。什么是「分类」虽然我们人类都不喜欢被分类,被贴标签,但数据研究的基础正是给数据“贴标签”进行分类。类别分得越精准,我们得到的结果就越有价值。分类是一个有...

2018-03-17 09:54:00

阅读数 4047

评论数 0

机器学习:用梯度下降法实现线性回归

之前在 机器学习算法数学基础之 —— 线性代数篇 中,总结过求解线性回归的两种方法:最小二乘法梯度下降法这篇文章重点总结一下梯度下降法中的一些细节和需要注意的地方。梯度下降法是什么假设有一个估计函数:  ,其代价函数(cost function)为: 这个代价函数是 x(i) 的估计值与真实值 y...

2018-02-25 10:01:14

阅读数 404

评论数 0

机器学习算法数学基础之 —— 统计与概率论篇(3)

核心问题发现数字的隐藏规律,完成分类。核心技能最大似然估计给定一个概率分布  ,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 ,以及一个分布参数  ,我们可以从这个分布中抽出一个具有  个值的采样  利用  计算出其似然函数:若  是离散分布,  即是在参数为  时观测到这一采样的概...

2018-02-22 08:19:06

阅读数 198

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭