陈国林

CSDN停止更新啦,欢迎大家关注我的Github https://github.com/chenguolin
687
原创
49
转载
0
译文
145
评论
987425
访问

我的博客文章

2016十一
10

CSDN停止更新啦,欢迎大家关注我的Github https://github.com/chenguolin

CSDN停止更新啦,欢迎大家关注我的Github https://github.com/chenguolin

(321)(0)
2016
24

python setup脚本编写

本文转载自:http://lingxiankong.github.io/blog/2013/12/23/Python-setup/前言其实对于setup.py和setup.cfg的关注是从OpenStack的源码包中开始的,OpenStack每个组件的发布时都是一个tar.gz包,同样,我们直接从github上clone代码后也会发现两个文件的存在。当阅读Nova或Ceilometer(其他组件可

(179)(0)
2016
24

Spark-分布式集群运行

1.简介这篇文章主要是简单的介绍一下Spark应用如何在集群上运行, 更进一步的理解Spark所涉及到的相关主件2.架构Spark应用在集群上是独立运行的进程, 通过主程序(main program)的SparkContext进行协调. 一般我们成Spark的主程序为driver程序(driver program)特别的, 在集群上运行Spark, SparkContext对象支持和多种不同类型的

(847)(0)
2016
17

Spark-Yarn架构介绍

1.简介MapReduct框架从hadoop-0.23版本以后发生了重大的变革, 新的计算框架我们称为MapReudce 2.0 或者 YARN(Yet-Another-Resource-Negotiator)这篇文章主要是简单的介绍YARN的架构, 因为后续我们都会使用YARN提交Spark程序MapReduct 2.0最主要的变革是把资源分配和任务调度隔离. 一个全局的资源管理称为Resour

(272)(0)
2016
11

Spark-python-快速开始

1. 概览 Apache Spark是一个快速且通用的集群计算系统,它提供了Java, Scala, Python 和 R 这四种语言的API,同时提供了一个最佳的图执行引擎。同时它也提供了很多工具,Spark-SQL用来提供SQL和结构化数据处理;MLlib是Spark的机器学习库;Graph X用来进行图进行;Spark Streaming则提供数据的流式处理。2.

(242)(0)
2016
05

Spark-yarn环境部署

参考自http://www.powerxing.com/install-hadoop/    基本环境: ubuntu 12.04 32位一. 安装yarn伪分布式集群     1. 创建新用户         (1) 添加用户: sudo useradd -m hadoop -s /bin/bash         (2) 修改密码: sudo passwd hadoop         (3)

(438)(0)
2016
02

机器学习-回归模型-欠拟合和过拟合

1. 什么是欠拟合和过拟合先看三张图片,这三张图片是线性回归模型 拟合的函数和训练集的关系第一张图片拟合的函数和训练集误差较大,我们称这种情况为 欠拟合第二张图片拟合的函数和训练集误差较小,我们称这种情况为 合适拟合第三张图片拟合的函数完美的匹配训练集数据,我们称这种情况为 过拟合  类似的,对于逻辑回归同样也存在欠拟合和过拟合问题,如下三张图  2. 如何解决欠拟合和过拟合问题欠拟合问题,根本的

(3607)(2)
2016
24

机器学习-逻辑回归-代价函数

1. 引言回到线性回归模型中,训练集和代价函数如下图如果我们还用J(θ)函数做为逻辑回归模型的代价函数,用H(x) = g(θ^T * x),曲线如下图所示发现J(θ)的曲线图是"非凸函数",存在多个局部最小值,不利于我们求解全局最小值因此,上述的代价函数对于逻辑回归是不可行的,我们需要其他形式的代价函数来保证逻辑回归的代价函数是凸函数。2. 代价函数这里我们先对线性回归模型中的代价函数J(θ)进

(2043)(0)
2016
22

机器学习-逻辑回归-分类

1. 逻辑回归监督学习中另一个问题为分类问题,常见的分类问题例子有邮件是否是垃圾邮件,0表示垃圾邮件,1表示正常邮件在线交易是否会欺骗用户,0表示会欺骗,1表示不会患肿瘤患者是良性还是恶性,0表示恶性,1表示良性这些问题,可以归之于二分类问题,y表示因变量,可以定义如下其中0表示负例,1表示正例 同理,对于多分类问题来说,因变量y的值可以取{0,1,2,3 ... n}我们先从二分类问题入手,理解

(299)(0)
2016
10

机器学习-线性回归-正规方程

1. 正规方程前面几篇文章里面我们介绍了求解线性回归模型第一个算法 梯度下降算法,梯度下降算法最核心的是找到一个学习速率α,通过不断的迭代最终找到θ0 ... θn, 使得J(θ)值最小。今天我们要介绍一个解决线性回归模型新的算法 正规方程 对于函数f(x) = ax^2 + bx + c 而言,要求其最小值,是对其求导数并且设置导数值为0.我们知道,多维特征变量的线性回归模型中,代价函数表达式,

(450)(0)
2016
06

机器学习-梯度下降算法-特征缩放和学习速率选取

1. 特征缩放实际当我们在计算线性回归模型的时候,会发现特征变量x,不同维度之间的取值范围差异很大。这就造成了我们在使用梯度下降算法的时候,由于维度之间的差异使得Jθ的值收敛的很慢。我们还是以房价预测为例子,我们使用2个特征。房子的尺寸(1~2000),房间的数量(1-5)。以这两个参数为横纵坐标,绘制代价函数的等高线图能看出整个图显得很扁,假如红色的轨迹即为函数收敛的过程,会发现此时函数收敛的非

(2265)(0)
2016
04

机器学习-线性回归-多维度特征变量

1. 假设函数之前的几篇文章里面,我们都只是介绍了单维特征变量的线性回归模型,比如预测房价的时候,我们只用了房子的面积这个维度。接下来我们会去研究多个维度的线性回归模型还是从预测房价这个例子入手,假设我们现在不只是单纯的考虑房子的面积,还考虑了卧室的数量、楼层、房子年限等三个维数由于特征向量x的维度是多维,因此我们的表示发生了一些变化,如下图因此,多个维度特征变量的线性回归的假设函数可定义为还是假

(990)(0)
2016
31

机器学习-梯度下降算法

1.引言虽然我们知道,代价函数Jθ的表达式,但是还不知道怎么去确定假设函数hθ(x)的所有参数θ0,θ1 ... θn,使得Jθ值最小。我们还是假设hθ(x)是一个线性函数,并且只有2个参数θ0,θ1,对应特征向量x只有1维我们的目标是使得J(θ0,θ1)最小我们可以采用以下方法,尝试找到J(θ0,θ1)最小值给θ0, θ1一个初始值,例如都等于0不断改变θ0, θ1的值,并且满足J(θ0,θ1)

(1482)(0)
2016
30

手把手教你编写-微信机器人

一. 引言      我们都知道,微信提供了多种登录的方式,包括手机端、电脑端以及web端。      web端的登录,我们用Python程序完全可以模拟出来~~(如果你不知道,那也没关系,稍微了解下Python request session即可)      而所谓的机器人实际上就是后台一个智能的程序,类似“微软小冰”,“iPhone siri”。今天我们要用的是一个开放的机器人API,“图灵机

(8142)(3)
2016
30

机器学习-监督学习-cost function

1.引言当我们的训练集如下图1所示,可以假设hypothesis函数如图2θ0和θ1我们称为hθ(x)函数的2个参数,h是x的函数,所以有时候也记着h(x)对于这个已有的hypothesis,我们需要什么方法来评估这个假设函数的好坏呢?因此我们定义了一个叫"代价函数"cost function 来评估当前hθ(x)函数2. 代价函数cost function也叫作loss function,就是对

(1108)(0)
2016
28

机器学习-监督学习-线性回归

一.引言机器学习中的回归问题属于有监督学习的范畴,回归问题的目标是给定D维输入变量x,并且每一个输入矢量x都有对应的值y, 要求对于新来的数据预测它对应的连续的目标值t。 比如下面这个例子:假设我们有一个包含47个房子的面积和价格的数据集如下: 我们可以在Matlab中画出来这组数据集,如下: 看到画出来的点,是不是有点像一条曲线? 我们可以用一条曲线去尽量拟合这些数据点,那么对于新来的输入,我

(501)(0)
2016
28

机器学习-入门介绍

一. 背景在机器学习中,有2个很大的思路监督学习(supervised learning)和非监督学习(unsupervised learning) 监督学习,用通俗的话来说就是你知道问题的答案,需要计算机给出一个更标准的答案。 非监督学习,用通俗的话来说就是物以类聚,人以群分。我们拿到了很多数据,但是不知道问题的答案,希望计算机给我们提供思路。 在生产环境中,往往采用混合模式。比如图片搜索,如何

(455)(0)
2016
28

python requests模拟登陆github

1. Cookie 介绍        HTTP 协议是无状态的。因此,若不借助其他手段,远程的服务器就无法知道以前和客户端做了哪些通信。Cookie 就是「其他手段」之一。 Cookie 一个典型的应用场景,就是用于记录用户在网站上的登录状态。用户登录成功后,服务器下发一个(通常是加密了的)Cookie 文件。客户端(通常是网页浏览器)将收到的 Cookie 文件保存起来。下次客户端与服务器连接

(1212)(1)
2016
15

中文分词之HMM模型详解

文章转载自: http://yanyiwu.com/work/2014/04/07/hmm-segment-xiangjie.htmlHMM(Hidden Markov Model): 隐式马尔科夫模型。HMM模型可以应用在很多领域,所以它的模型参数描述一般都比较抽象,以下篇幅针对HMM的模型参数介绍直接使用它在中文分词中的实际含义来讲:HMM的典型介绍就是这个模型是一个五元组:StatusSet

(2191)(0)
2016
24

"结巴"中文分词

1. 结巴中文分词    结巴分词是国内程序员用开发的一个中文分词模块, 源码已托管在github, https://github.com/fxsjy/jieba2. 结巴分词算法:    a. 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)    b. 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合    c. 对于未登录词,采用了

(2419)(0)
736条 共37页1 2 3 4 5 ... 下一页 尾页
img

cgl1079743846

等级:

排名:第559名

文章分类
文章存档
Link
About Me
      1. 公司: 阿里巴巴-神马搜索 (2014.07 ~ 至今)
      2. 职位: 搜索引擎研发工程师
      3. email: cgl1079743846@gmail.com
      4. 关于我:

      (1). 熟悉Linux开发,熟悉C/C++, Python等编程语言,熟练掌握Shell脚本

      (2). 喜欢大数据,分布式,有海量数据处理经验,了解Map-Reduce,有Python Spark相关开发经验

      (3). 热爱开源,用Python实现过微信机器人,用C++实现过中文分词,正在研读Leveldb源码

      (4). 目前正在学习机器学习,喜欢尝试不同的工作内容

img