2016年02月_sherri_du

原创 2、发现群组 Python代码

http://blog.csdn.net/sherri_du/article/details/50764341python解析RSS（feedparser）介绍feedparser的使用不得不说feedparser非常的强大不仅是因为它对各种rss版本的兼容性非常好，而且使用起来很简单，就一个函数（如假包换）上代码：1 d = feedparser.p

2016-02-29 15:19:44 375

虽然说当今的博客已经不像前几年那么火了，但是RSS还是一项很有创造性和实用性的东西。RSS 是用于分发 Web 站点上的内容的摘要的一种简单的 XML 格式。它能够用于共享各种各样的信息。关于RSS的详细信息在（http://www.rssboard.org/rss-profile），这里面详细的讲了各种值的含义（虽然各个版本的支持不太一样，但是还是比较有通用性的）。这里我先介绍一下怎么使用fee

2016-02-29 11:36:46 969

原创 1、提供推荐 Python代码

#coding=utf-8#加载这个文件可以在import recommendations和import distance,每次修改后用reload(recommendations),reload(distance)from math import sqrt#欧几里得距离def distance(prefs,person1,person2): # 得到shared_

2016-02-28 21:45:34 877

原创 3、softmax回归 C代码

二分类logistics回归的时候，我们用了一个theta，其中theta是n维，n取决于样本x有几维以此类推，当三分类softmax的时候，我们就用两个theta，一个是划分为1的theta，一个是划分为2的theta，一个是1减去他俩所以说，theta1就代表了分类里，结果为第一类的作用的那个theta。theta2代表第二类作用为2的那个theta因此，我

2016-02-28 09:42:38 1773

转载 Softmax Regression

在前面的logistic regression博文Deep learning：四(logistic regression练习) 中，我们知道logistic regression很适合做一些非线性方面的分类问题，不过它只适合处理二分类的问题，且在给出分类结果时还会给出结果的概率。那么如果需要用类似的方法（这里类似的方法指的是输出分类结果并且给出概率值）来处理多分类问题的话该怎么扩展呢？本次要讲

2016-02-27 11:57:40 398

原创 2、Logistic Regression求解classification问题 c代码

#include "stdio.h"#include "math.h" double x[6][4]={{1.0,47.0,76.0,24.0}, //include x0=1 {1.0,46.0,77.0,23.0}, {1.0,48.0,74.0,22.0}, {1.0,34.0,76

2016-02-27 10:56:59 655

原创 1、梯度下降c代码

batch gradient descent（批量梯度下降） #includeint main(){ //如何求y=2x^2极小值 int i; double x=-2.0,a=0.05; for(i=1;i x=x-a*4*x; printf("%lf\t",x); }//如何求解x=[x1,x2]使y=5x1^2+6x2^2+7

2016-02-27 10:46:38 1169

原创 5-3 hadoop集群搭建

在我们伪分布式里面hdfs老大只有一个，现在，hdfs为了高可靠性，要有多个namenode【如果一个namenode死了之后，整个就瘫痪了】，进行实时切换，hadoop2.0把namenode进行了一个抽象，变成了一个nameservice，在一个nameservice里面，有两个namenode。但是，有两个namenode是不是得有个“人”来协调，否则要不都是ac

2016-02-26 19:23:04 418

原创 5-2 搭一个zookeeper集群

在第一个已经启动起来的zookeeper，如果停止，用./zkServer.sh stop如果要搭集群，那么一定要修改配置文件：在conf里面的zoo.cfg里修改：vim zoo.cfg详细解释zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg，需要将其修改为zoo.cfg。其中各配置项的含义，解释如下：

2016-02-26 16:43:28 451

原创 5-1Zookeeper介绍

hadoop官方提供的包是在32位的，如果要64的需要自己编译# 如果是租用的云主机（华为云主机，阿里云主机） /etc/hosts一定要配内网IP地址和主机名的映射关系集群规划：主机名 IP安装的软件运行的进程itcast01 192.168.1.201 jdk、hadoopNameNode、DFSZKFailoverControlleritca

2016-02-26 15:01:03 394

原创 3-4

MR流程代码编写；作业配置；提交作业；初始化作业；分配任务；执行任务；更新任务和状态；完成作业RM（resource manager）是yarn的老大NM（node manager）是yarn的小弟一个客户端提交一个mapreduce任务（client提交一个jar包）

2016-02-07 20:25:45 270

原创 3-3 wordcount代码编写 mapper+reducer,wordcount

来个A业务要写mapreduce，来一个B业务又写mapreduce，适用性不是很好，以后会学到框架会很爽，只要发一个语句就可以完成mapreduce，但是mapreduce是它的基础面试：mapreduce是什么东西？它的执行流程是什么？它出现问题怎么办？等等。。打开eclipse，往那个项目里导入mapreduce相关的jar包，复制到hadoop0

2016-02-07 00:46:04 1239

原创 3-2 wordcount执行流程 wordcount流程

mapper和reducer输入和输出都是以(key,value)形式的Group，分组，按照key2来分组，然后将v2放在一个集合中，作为一个value如果我们想实现mapreduce模型，只需要重写map方法和reduce方法即可，适合各种业务。mapreduce执行过程：map任务：1.读取文件内容，一行内容解析成一个key,value【怎

2016-02-01 23:40:19 1164 1

原创 3-1MapReduce原理，原理图要记住

MapReduce是分布式计算编程模型。【就是每个人的业务都可用】。只要我实现具体的业务逻辑即可，底层的细节不需要我关心。Google在2004年提出了这种模型，非常简单即可实现分布式计算模型。面试题：我有一个1G的文件，有许多数，用空格分隔，机器的内存只有1M 我怎样将这样的数据计算出来？方法：我把文件切分成1024分

2016-02-01 23:37:42 502

转载 2-6 Java类加载器总结

1.类的加载过程 JVM将类加载过程分为三个步骤：装载（Load），链接（Link）和初始化(Initialize)链接又分为三个步骤，如下图所示：1) 装载：查找并加载类的二进制数据；2)链接：验证：确保被加载类的正确性；准备：为类的静态变量分配内存，并将其初始化为默认值；解析：把类中的符号引用转换为直接引用；3)初始

2016-02-01 20:12:12 251

原创 2-6HDFS读取数据的过程+下一篇类加载器（未完）

我们在centos下打开JPS，看到有几个进程，如果我们设置断点了的话，【设置短点跳出，右键选clone session不知道在哪】是在jps看到进程里面有RPCClient的。这说明，namenode，datanode这些都是一个类！在eclipse里面打开Ctrl+shift+T 可以查找类找到namenode之后，我们开始关联源码，在这里，我们先去搜索下载一个hado

2016-02-01 19:54:54 345

sherri_du的博客