一路前行1-CSDN博客

原创决策树算法与剪枝处理

一、决策树算法决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。决策树算法的核心思想就是通过不断地决策来筛选出最终想要的结果，来看下面一个例子：上图是一个女孩相亲中确定见不见男方的过程，她先根据年龄筛选，年龄大于30 的不见，小于30的看长相；长相丑的不见，不丑的见……

2017-09-03 22:21:25 4152

原创线性回归与岭回归python代码实现

一、标准线性回归在线性回归中我们要求的参数为：详细的推导可以参见：http://blog.csdn.net/weiyongle1996/article/details/73727505所以代码实现主要就是实现上式，python代码如下：import numpy as npimport pandas as pdimport matplotlib.pyplo

2017-08-31 16:51:50 20821 8

原创斯坦福大学公开课机器学习课程（Andrew Ng）十特征选择

课程概述：1.VC维2.模型选择3.特征选择一、VC维对于一个模型来说，比如 logistic模型，如果有n 个feature，那么该模型会有 d=n+1个参数。虽然理论上说d个参数的取值都有无穷多个，使得模型集合无限大。但实际上，在计算机的表达中，比如每个参数都以64位Double型表示，那么共需要 64d位来表达这个模型集合，考虑到每个位有 0、1 两种

2017-08-26 21:17:36 1526

原创使用scrapy编写爬虫入门

一、简介 Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。抓取网页的一般方法是，定义一个入口页面，然后一般一个页面

2017-08-25 20:48:36 1185

原创斯坦福大学公开课机器学习课程（Andrew Ng）九经验风险最小化

课程概述：1.偏差/方差（Bias/variance）2.经验风险最小化（Empirical Risk Minization，ERM）3.联合界引理与Hoeffding不等式4.一致收敛（Uniform Convergence）一、偏差/方差偏差与方差对应的仍然是过拟合与欠拟合的问题，本篇主要解决的问题就在于构建一个模型，对何时出现过拟合和欠拟合进行说明

2017-08-22 21:54:39 3244

原创 Storm ACK机制

一、Ack是什么为了保证数据能正确的被处理, 对于spout产生的每一个tuple, storm都会进行跟踪。ack机制即， spout发送的每一条消息：在规定的时间内，spout收到Acker的ack响应，即认为该tuple 被后续bolt成功处理在规定的时间内，没有收到Acker的ack响应tuple，就触发fail动作，即认为该tuple处理失败，或

2017-08-19 10:03:43 4732

转载如何切换Python2与Python3

当同时安装Python2和Python3后，如何兼容并切换使用详解（比如pip使用）由于历史原因，Python有两个大的版本分支，Python2和Python3，又由于一些库只支持某个版本分支，所以需要在电脑上同时安装Python2和Python3，因此如何让两个版本的Python兼容，如何让脚本在对应的Python

2017-08-16 15:13:50 25997 1

转载 Storm通信机制

<div class="markdown_views"><h1 id="storm通信机制"><a name="t0" target="_blank"></a>Storm通信机制</h1>Worker间的通信经常需要通过网络跨节点进行，Storm使用ZeroMQ或Netty(0.9以后默认使用)作为进程间通信的消息框架。 Worker进程内部通信：不同worker的thread通信使用LMAX

2017-08-16 08:48:59 1082

原创 python pandas库的学习笔记三数据操作

一、汇总和计算描述性统计pandas对象拥有一组常用的数学和统计方法。他们大部分都属于约简和汇总统计，用于从Series中提取单个值（如mean或sum）或从DataFrame的行或列中提取一个Series。跟对应的NumPy数组方法相比，他们都是基于没有缺失数据的假设而构建的。下面是一个简单的DataFrame：>>> import numpy as np>>> import pa

2017-08-15 12:13:48 1471

原创 Storm架构与运行原理

一、Storm简介 Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流，像Hadoop批量处理大数据一样，Storm可以实时处理数据。Storm 很简单，可用于任意编程语言。Apache Storm 采用 Clojure 开发。Storm 有很多应用场景，包括实时数据分析、联机学习、持续计算、分布式 RPC、ETL 等。

2017-08-13 20:54:38 30491 5

Intellij IDEA中有很多快捷键让人爱不释手，stackoverflow上也有一些有趣的讨论。每个人都有自己的最爱，想排出个理想的榜单还真是困难。以前也整理过Intellij的快捷键，这次就按照我日常开发时的使用频率，简单分类列一下我最喜欢的十大快捷-神-键吧。1 智能提示Intellij首当其冲的当然就是Intelligence智能！基本的代码提示用Ctrl+Space，还有更智能地按类型

2017-08-13 11:13:11 503

原创 storm集群安装配置

安装storm集群，需要依赖以下组件：ZookeeperPythonStormJDK1.安装jdk省略，安装jdk很简单，网上有很多教程，这里不再说明。2.安装zookeeper可以参照这篇：http://blog.csdn.net/weiyongle1996/article/details/737447703.安装python一般linux系统都会自带py

2017-08-12 09:07:27 707

原创 python pandas库的学习笔记二pandas的基本功能

1.重新索引pandas对象的一个重要的方法就是reindex，作用是创建一个适应新索引的新对象。>>> import numpy as np>>> import pandas as pd>>> from pandas import Series,DataFrame>>> obj=Series([4.5,7.2,-5.3,3.6],index=['d','b','a','c'])

2017-08-11 21:27:25 3945

原创斯坦福大学公开课机器学习课程（Andrew Ng）八顺序最小优化算法

课程概要：1.核技法2.软间隔分类器3.SVM求解的序列最小化算法(SMO)4.SVM应用一.核技法回忆一下上篇中得到的简化的最优问题，，#1：定义函数ϕ(x)为向量之间的映射，一般是从低维映射到高维，比如在前面笔记中提到的房价和面积的关系问题中，可以定义ϕ为：这样，就可以将#1 问题中目标函数中的内积的形式这样就达到了将低维空间上

2017-08-09 19:03:32 742 1

原创 python pandas库的学习笔记一pandas的数据结构

一、pandas的数据结构要使用pandas，首先要熟悉他的两个主要的数据结构：Series和DataFrame。1.SeriesSeries 是一种类似于一维数组的对象，由一组数据（各种numpy数据类型）以及一组与之相关的数据标签（即索引）组成。仅由一组数据即可产生最简单的Series：>>> import pandas as pd>>> pd.Series([4,7,-

2017-08-08 15:33:27 2278 1

原创 python numpy包的使用二数据处理与文件读写

一、数据处理1.meshgrid函数如果我们想在一组sqrt(x^2+y^2),便可以使用meshgrid函数。它接收两个以为数组，产生两个二维矩阵，如下：>>> points = np.arange(-5,5,0.01)>>> xs,ys = np.meshgrid(points,points)#代表要计算的x，y值>>> xsarray([[-5. , -4.99, -

2017-08-02 21:59:45 1396

原创斯坦福大学公开课机器学习课程（Andrew Ng）七最优间隔分类器

课程概要：1.最优间隔分类器2.原始/对偶问题3.svn的对偶问题在上篇中，我们提到了函数间隔与几何间隔，这两个定义是 svm 的基本定义，因为svn比较复杂，这里先简要介绍一下svn的几个部分。首先是函数间隔与几何间隔，由它们引出最优间隔分类器；为了多快好的解决最优间隔分类器问题，使用了拉格朗日对偶性性质，于是，先要理解原始优化问题与对偶问题及它们在什么条件（KKT

2017-07-31 14:22:44 1367

原创 HBase启动失败，启动后自动退出

2017-07-23 08:12:50,325 ERROR [main] master.HMasterCommandLine: Master exitingjava.lang.RuntimeException: Failed construction of Master: class org.apache.hadoop.hbase.master.HMaster at org.ap

2017-07-30 17:06:52 2711

原创 python numpy包的使用一基本操作

numpy(NumericalPython extensions)是一个用于科学计算第三方的Python包。 NumPy提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库。专为进行严格的数字处理而产生。一、数组简介Numpy中，最重要的数据结构是：多维数组类型（numpy.ndarray）ndarray由两部分组成：实际所持有的数

2017-07-29 18:07:43 11031 3

原创斯坦福大学公开课机器学习课程（Andrew Ng）六朴素贝叶斯算法

课程概要：

2017-07-28 08:16:02 3152

原创 sqoop导入数据出错ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied

17/07/22 15:36:35 ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user 'root'@'mini1' (using password: YES)java.sql.SQLException: Access denied for user

2017-07-27 18:18:08 12479

转载 MySQL修改用户权限

关于mysql的用户管理，笔记　　1、创建新用户　　通过root用户登录之后创建　　>> grant all privileges on *.* to testuser@localhost identified by “123456” ;　　//　　创建新用户，用户名为testuser，密码为123456 ；　　>> grant all privileges on *.* to testuser@

2017-07-27 17:53:45 28702

原创 Azkaban简介与使用

一、Azkaban简介 Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。简而言之就是一个工作流调度系统。为什么需要工作流调度系统？因为一个完整的数据分析系统通常都是由

2017-07-25 17:19:37 12215

转载使用浏览器访问azkaban报错：javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection?

javax.net.ssl.SSLException: Unrecognized SSL message, plaintext connection? at sun.security.ssl.InputRecord.handleUnknownRecord(InputRecord.java:671) at sun.security.ssl.InputRecord.re

2017-07-24 15:25:22 15267 2

原创 flume简介与安装配置

一、flume简介Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。flume的核心是把数据从数据源收集过来，再送到目的地。为了保证输送一定成功，在送到目的地之前，会先缓存数据，待数据真正到达目的地后，删除自己缓存的

2017-07-21 21:15:21 1683

原创 hive基本结构与数据存储

一、Hive简介Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。还可以将 SQL 语句转换为 MapReduce 任务进行运行，通过自己的 SQL 去查询分析需要的内容，这套 SQL 简称 HQL。使用hive的优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应

2017-07-18 20:41:03 6827

原创 hive安装配置(hive1.2.1)

环境centOS 7hive的安装比较简单，只需要在一台机器上配置即可。由于hive的一些功能要借助数据库实现，所以要先装好mysql。一.安装MySql在MySQL官网中下载YUM源rpm安装包：http://dev.mysql.com/downloads/repo/yum/# 下载mysql源安装包shell> wget http://dev.m

2017-07-18 11:05:26 5242

原创斯坦福大学公开课机器学习课程（Andrew Ng）五生成学习算法

课程概要：1.生成学习算法（Generative learning algorithm）2.高斯判别分析（GDA，Gaussian Discriminant Analysis） 3.GDA与logistic模型的联系4.朴素贝叶斯（Naive Bayes） 5.拉普拉斯平滑（Laplace smoothing）一、生成学习算法两种学习算法的定

2017-07-16 22:35:38 2970

原创 myEclipse2017添加tomcat服务器

myEclipse2017中安装tomcat与之前版本的myEclipse略有不同，一起看一下。首先确保你的机器 jdk tomcat 什么的已经安装成功。1.MyEclipse启动点击"Window"：2.进入“Perferences”进行设置，如下图：3.然后点击Server --> Runtime Environment,如下图

2017-07-16 10:25:21 92828 9

转载两台linux之间传输文件的方法

scp传输当两台Linux主机之间要互传文件时可使用SCP命令来实现scp传输速度较慢,但使用ssh通道保证了传输的安全性复制文件将本地文件拷贝到远程 scp 文件名 –用户名@计算机IP或者计算机名称:远程路径从远程将文件拷回本地 scp –用户名@计算机IP或者计算机名称:文件名本地路径命令格式scp local_file

2017-07-13 22:28:10 6490

转载 centOS7设置静态ip后无法上网的解决

最近在VMware虚拟机里玩Centos，装好后发现上不了网。经过一番艰辛的折腾，终于找到出解决问题的方法了。最终的效果是无论是ping内网IP还是ping外网ip，都能正常ping通。方法四步走：第一步，我们进入/etc/sysconfig/network-scripts目录，查看该目录有没有形如ifcfg-XXX的文件：如果你看不到以ifcfg-打头的文件（ifcfg-lo除外

2017-07-13 13:29:21 21888 11

转载高可用性hadoop集群的搭建

1.概述　　在Hadoop2.x之后的版本，提出了解决单点问题的方案－－HA（High Available 高可用）。这篇博客阐述如何搭建高可用的HDFS和YARN，执行步骤如下：创建hadoop用户安装JDK配置hosts安装SSH关闭防火墙修改时区ZK（安装，启动，验证）HDFS＋HA的结构图角色分配环境变量配置核心文件配置slave启动命令（hdfs和yarn的相关命令）HA的切

2017-07-13 08:50:43 762

转载 centOS7下ping不通外网

一、提前说两句在centos7工作环境中，无论是玩爬虫还是安装更新软件我们可能都需要连接外网，但是经常会出现无法连接外网的情况。现在我们一起解决常见的几种ping 不通外网的情况。二、解决问题 1.mtu值在安装Docker时，我们遇到了云主机的mtu值和物理环境的mtu值不同的问题。解决方案参考《mtu值不匹配问题》。2.DNS问题查看路由[root@c

2017-07-12 09:51:34 7348

转载 CentOS修改DNS重启或network服务后丢失问题处理

我们在配置CentOS的时候，很多情况需要能联外网，那么就需要DNS解析功能，默认的是没有配置DNS信息的，所以我们得配置DNS信息起因我们在搜索Centos配置DNS信息的时候，很多都是说在这个文件进行配置"/etc/resolv.conf",我们在这个里面加了nameserver后确实可以ping通域名，但是重启centos或者重启network服务后就无法ping通了，在"/etc/

2017-07-11 22:20:20 8507 2

原创斯坦福大学公开课机器学习课程（Andrew Ng）四牛顿方法与广义线性模型

本次课所讲主要内容：1、牛顿方法：对Logistic模型进行拟合2、指数分布族3、广义线性模型（GLM）：联系Logistic回归和最小二乘模型一、牛顿方法牛顿方法与梯度下降法的功能一样，都是对解空间进行搜索的方法。假设有函数，需要找使=0的步骤：1) 给出一个的初始值2) 在作的切

2017-07-11 13:25:39 1821

原创 MapReduce框架结构与运行流程

Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架；Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。为什么要MapReduce？（1）海量数据在单机上处理因为硬件资源限制，无法胜任（2）而一旦将单机版程序扩展到集群来分布式运行，将极大增加程序的复

2017-07-08 11:44:48 4895

原创斯坦福大学公开课机器学习课程（Andrew Ng）三欠拟合与过拟合

概要本节课的主要内容有：1、局部加权回归：线性回归的变化版本2、概率解释：另一种可能的对于线性回归的解释3、 Logistic回归：基于2的分类算法，也是第一个要学的分类算法4、感知器算法：

2017-07-07 15:50:17 2279

原创 HDFS体系结构及读写流程

一、HDFS简介 HDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB，GB以及TB，并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改，则并不是十分适合。HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件

2017-07-06 19:27:24 5223

转载 st3下如何运行python

首先你需要安装一个Sublime Text（http://www.sublimetext.com/）和一个Python（https://www.Python.org/downloads/），接下来打开Sublime Text:1、如下图所示，点击菜单栏中的Tools —> Build System —> New Build System… （可以看到系统默认选择的是Automati

2017-07-02 22:17:49 930

原创 Hadoop2.6.4集群安装配置

修改hadoop-env.shvi hadoop-env.sh找到export JAVA_HOME一行，如下：将其改为你的jdk路径（echo $JAVA_HOME可以查看jdk路径）更改配置文件core-site.xmlvi core-site.xml

2017-07-02 13:30:56 1657 3

mysql-connector-java-5.1.31-bin.jar

空空如也