自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (1)
  • 收藏
  • 关注

原创 Kafka编程实践

Kafka 编程实践搭建了一个Kafka集群之后,看怎么用Java程序编写去利用它。参考Kafka文档(http://kafka.apache.org/documentation/),Kafka可以用在三个场景:Messaging SystemStorage SystemStream Processing我用Java实现了一个“生产者-消费者”的

2018-02-02 10:33:16 1442

原创 Python数据库与DataFrame

Python数据库与DataFrame安装必须的包:pip install sqlalchemypip install pandaspip install pymysql用交互式 python:>>> import pandas as pd>>> from sqlalchemy import create_engine>>>>>> db_info = {'us

2018-02-01 19:12:49 642

原创 Python 读写数据库(MySQLDB)

用MySQLDB需要先安装:yum install MySQL-python.x86_64updateimport datetimeimport MySQLdbconn= MySQLdb.connect( host='myservicedatabase.host.name.or.ip', port = 330

2018-02-01 19:05:12 634

原创 Kafka 单机部署

Kafka可以当作队列使用,这里记录一下单机环境下,简单的部署过程。准备环境下载wget http://mirrors.hust.edu.cn/apache/kafka/1.0.0/kafka_2.11-1.0.0.tgz解压到/opt/apache/home/kafka_2.11-1.0.0设置环境变量# Kafka

2018-01-30 09:59:22 727

原创 Kafka集群手动配置

Kafka是一个分布式的、可分区的、可复制的消息系统。它专为分布式高吞吐量系统而设计。与其他消息传递系统相比,Kafka具有更好的吞吐量,内置分区,复制和固有的容错能力,这使得它非常适合大规模消息处理应用程序。在大数据的语境下,Kafka是流式数据处理、集群消息队列的不二之选。 Kafka将消息以topic为单位进行归纳。producers向Kafka的指定topic发布消息,cons

2018-01-30 00:10:50 1669

原创 Zookeeper 分布式手动部署安装

在很多场合下zookeeper是必不可少的,比如hbase环境、kafka等。延续上次的安装套路(详参考hadoop-cdh5 分布式环境手工安装步骤),又手工部署了一下zookeeper。解压:zookeeper-3.4.5-cdh5.3.2环境变量:vi /etc/profile.d/zookeeper.sh#!/bin/bash

2018-01-29 23:49:21 444

原创 hadoop-cdh5 分布式环境手工安装步骤

用cloudera的CM安装cdh5是一件轻松的事情。但如果有追究本源的习惯,还是喜欢自己折腾一番手工部署。自己部署也可以更好的控制一些环境。比如说,为了可以灵活升级,一般我建议配置文件和执行模块分离,日志分离等等,这些都可以用环境变量来控制。我部署的套路是:运行数据、日志与运行程序配置分离运行程序部署在/opt目录下环境变量放在/etc/p

2018-01-19 21:58:00 383

原创 逻辑回归模型的评估方法

从Weka工具跑回归模型可以看到评估的输出,怎么解读自行脑补过,大概明白了些。翠花,上截图!我们普通人最直接的理解是正确率吧。应该对应到Correctly Classified Instances比例(正确分类了的实例)。 在上图中,总实例数1000,正确分类了963,*正确率*96.3% 。TP、FP、FN、TN 但一两个数往往说明不了问题,专业人士们,会看真的、被分对、真的、被分错、假的、被

2016-07-14 18:09:35 20484

原创 Java集成Weka做线性回归的例子

线性回归在数据挖掘领域应也是非常常见,即根据现有的数据集(行向量组成的矩阵),(训练)模拟出一个合适的规律(函数),来推测任何新给出的数据组合(向量)应该得到的值。具体的描述可以参见各种博客,怎么推导的看来看去一知半解,但总而言之结果也简单,就是计算得到一个“适当”的多元线性函数Y=a0+a1*x1+a2*x2+a3*x3+…+ak*xk。

2016-07-14 15:42:39 7414

原创 Weka生成和加载PMML文件

网络上太多示例展示了Weka怎么样调用数据分类算法,但想想我如何针对一个训练好的分类模型进行重用呢。所以必须要“导出来”。导出模型,一个标准的方式就是用PMML了。

2016-07-13 19:22:54 2933 3

原创 Java集成Weka做逻辑回归(Logistic Regression)(续)

从网上找样本数据太不好找了,尤其是想看看多分类的那种数据;而且数据量都偏小,不好玩。得,还是自己造数据,当然规则自己拟。自己造数据,生成arff文件。

2016-07-13 10:14:20 2845

原创 Java集成Weka做逻辑回归(Logistic Regression)

Java集成Weka做逻辑回归(Logistic Regression)从搜索引擎脑补可以得知,“逻辑回归”是一种分类器,通过样本集合的训练之后,可以简单做二元(或多元)分类。看了一下有用Weka做的,来来,咱也试一下。

2016-07-13 00:07:03 9223

转载 架构与敏捷:不得不说的故事

这篇文章由IEEE Software 杂志首发,并由InfoQ & IEEE Computer Society转载于此.敏捷开发离不开架构?架构离不开敏捷开发?难道得出这些问题答案非要经由一场讽刺漫画般、基于根深蒂固价值观的针锋相对,而不能在二者清晰定义之上、基于开放的、推理式的对话?也许,更通俗地描述问题是回答它的良好开始:除了专注于敏捷方法之外,我们还需要广泛考虑各种开发过程?而且

2014-06-28 23:24:43 676

原创 如何敏捷架构

To my understanding scrum forbids upfront design. And basically is about "let's develop with what we know" inside this framework. Again to my understanding, architecture is about creating a fram

2014-06-22 11:34:59 663

原创 HADOOP之旅——部署集群

好吧,把上个月部署hadoop的步骤记一下。因为之前写的文档是英文的,也就不翻译了。1. Preparation7 nodes: 1 name node, 6 data nodesInstall OS (Ubuntu 12.04 64bits)Install all nodes. Modify the default /bin/sh -> bashInstall

2013-05-09 13:05:47 590

原创 Gluster 部署上的 unknown error 107 问题

今天拿了两台旧机器(PentiumD)想搭一个分布式文件系统来玩玩,看看和HDFS对比有哪些使用上的不同。安装应该是很容易:操作系统Fedora17 32位,留了大片的磁盘空间不做分区(51GBout of 73GB)。然后用yum安装;然后发现需要将glusterd 这个daemon启动……好了,到了peer probe。几个钟都卡在unknown error

2013-05-08 18:15:05 3619

原创 程序启动的Splash screen与跳转

Splash窗口可以使用一个ImageView,加载一张图片“welcome.jpg”即可(jpg也可以哦)。

2011-03-20 12:39:00 1232

原创 Hello to Android

<br />这星期开始学Android,过程简直是九曲黄河。<br /> <br />首先是下不到Android SDK,网站被屏蔽,需要翻墙。<br />后来装上后,无法下载更新Android SDK tool revision 10,发现将原来的tools 目录干掉(改名),然后将下载解压好的目录temp/下的一个目录拿来替换tools目录,重启SDK Manager即可。<br />启动模拟器,用了缺省的WVGA800,结果在我电脑上卡壳不能响应,后来试了用WVGA400可以了。<br />搞好了Ec

2011-03-19 19:19:00 3875 1

原创 SSH 隧道的建立

中转机# cat /usr/bin/dev-android.sh #!/bin/shwhile [ 1 ];do ssh -gN -L 80:developer.android.com:80 root@69.147.178.38done 

2010-12-01 19:31:00 709

原创 Linux上NFS 配置

因为开发分布式系统,为调试方便,老是需要将代码拷贝到N台机器的相同目录下。已经设置了ssh公钥使得免密码直接登录,加上脚本,使得可以一键运行常用的一系列操作。忽而让我觉得还是配置一下NFS吧,这样还更方便。搞定了,把步骤记下来。首先,配置NFS服务在服务端上(我的工作站)安装# apt-get install nfs-kernel-server nfs-common portmap希望使用已经定义的匿名用户,所以为之创建了用户和组,指定uid为1099,gid为999:sudo groupadd -g999

2010-11-23 11:43:00 424

原创 数据库事物隔离级别 (藏)

http://blog.csdn.net/willfcareer/archive/2010/08/18/5820821.aspx

2010-09-17 15:23:00 330

原创 An example of using STL multimap

下面这段忘记从哪里Copy的了。 1: #include 2: #include 3: #include string> 4: using namespace std; 5: int main() 6: { 7: multimapstring, string> names; 8: stri

2010-05-19 11:48:00 611

原创 使用 sed 修改配置文件

最近写一些Debian包安装脚本。由于希望安装时能提示用户输入一些初始配置参数,用sed倒来倒去,终于弄出来。 sed功能强大,但参数繁多,一天不用就忘。还是找个地方记下来,一来给大家分享,二来这里比记在本子上强。 一个典型的例子是,在配置文件中修改一个子网IP。在这个配置文件中,本人定义的子网IP格式是 网段IP加掩码位数:如 192.168.10.4/26 setu

2010-05-11 10:12:00 5320

原创 微软STL,hash_map 的效率问题

前天发现一个微软 hash_map的效率问题。一个对的六百万次查找,用了接近一分钟。本来不觉得怎么的,可是相似的代码,在ubuntu上面,执行才不到一秒。这个问题就大了。 #include hash_map.h>#include stdio.h>#include sys/time.h>using namespace std;typedef hash_mapunsigned int, int

2008-04-14 12:34:00 1772 1

原创 飞信协议-邀请与通话

最近一个月摸一摸飞信协议。我也下了装了wincap和ethereal抓包,参考大虾的研究,一边摸索写代码。 开始,一切都挺顺利的: 登陆SSI服务器成功了 登陆ProxyServer也验证能通过了 能得到好友列表了 直到 被邀请,然后接收信息,回复同样的信息,这里卡住! 现象是,用户A发送会话邀请,程序B接受邀请,用户

2008-03-25 15:56:00 1185 8

原创 IM还能怎么玩?

也许是看了QQ眼红,也许是移动财大气粗,或者也许,是看到IM市场这块奶酪够大,将来不可限量?反正移动开始了飞信这个项目三年了,准备利用自身的用户量优势而有些作为。说起IM通信,早在2004年,我在原来公司搞SP的时候(那个时候SP如日中天),经理就想通过搞个IM来增加业务的粘性。 当时定名为TQ,不管“T”字有多少种含义,至少,当时大家的想法是,第一阶段,先给公司内部客服使用,通过平台端口号向

2008-03-10 12:56:00 707

P2P持久存储研究

摘 要: P2P(peer-to-peer)的组织模式已经成为新一代互联网应用的重要形式,它为应用带来了更好的扩展性、容错性和高性能.P2P存储系统一直是研究界所关注的热点,被认为是P2P最具前途的应用之一.数据的持久存储是制约P2P存储系统发展的关键问题,也是其研究的难点.综述了P2P存储系统及数据持久存储相关技术的研究现状.首先概述了P2P存储系统的基本技术组成及其在不同应用环境中的优势,并介绍了数据冗余、数据分发、错误检测和冗余数据维护等多种持久存储的基本技术.在一个P2P存储系统研究框架下,介绍了目前知名的P2P存储系统及其使用的持久存储技术.对各种技术进行了详细综述和对比讨论,分析了各种技术的适应环境及优劣,指出了存在的问题和未来研究的方向.

2008-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除