自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

技术是条不归路

这孩子从小记性不好,什么东西都要写下来才放心

  • 博客(89)
  • 资源 (16)
  • 收藏
  • 关注

原创 编译安装nginx并配置ssl加密的代理服务

编译安装nginx并配置ssl加密的代理服务前期准备安装编译需要的gcc和gcc-c++ yum install -y gcc gcc-c++ 安装nginx依赖pcre-devel、openssl-devel、zlib-devel yum install -y pcre pcre-devel openssl openssl-devel zlib zlib-devel 准备源码...

2018-04-02 10:15:02 1207

转载 理解皮尔逊相关系数(Pearson Correlation Coefficient)

要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下: cov(x,y)=∑ni=1(xi−xμ)(yi−yμ)n−1cov(x,y)=∑i=1n(xi−xμ)(yi−yμ)n−1 cov(x,y) = \dfrac{ \sum_{i=1...

2018-03-13 01:24:57 34746 1

原创 随机森林算法小结

随机森林算法1.随机森林原理介绍Random Forest 是 ensemble learning (集成学习?)算法的一种,它利用多棵树对样本进行训练并预测的一种分类器,同样也可用户回归,其输出的类别是由个别树输出的类别的众数而定。 该算法最早由Leo Breiman和Adele Cutler提出, 而”Random Forests”是他们注册的商标。

2017-01-12 10:41:39 6074

原创 决策树、ID3、C4.5以及CART算法小结

决策树、ID3、C4.5以及CART算法决策树模型在监督学习中非常常见,可用于分类和回归。虽然将多棵弱决策树的Bagging、Random Forest、Boosting等tree ensemble 模型更为常见,但是“完全生长”决策树因为其简单直观,具有很强的解释性,也有广泛的应用,而且决策树是tree ensemble 的基础,值得好好理解。

2017-01-02 19:56:52 9173

原创 Data Visualization - Dot Lang & Graphviz

Data Visualization - Dot Lang & Graphviz

2016-12-28 13:52:41 2362

原创 Huffman树与Huffman编码

Huffman树与Huffman编码Huffman树的定义Huffman Tree(哈夫曼/霍夫曼树)即最优二叉树,特点为给定n个权值作为n个叶子结点构造一棵二叉树,使得带权路径长度达到最小。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。在树的基本定义中,树的带权路径长度为树中所有叶子结点的带权路径长度之和

2016-12-20 22:10:10 2681

转载 Ubuntu Linux GUI desktop

原文地址: https://linuxconfig.org/how-to-install-gui-desktop-environment-on-ubuntu-linux-14-04-lts-trusty-tharHow to install GUI desktop environment on Ubuntu Linux 14.04 LTS (Trusty Thar)

2016-12-20 10:26:35 3620

原创 Python 的 input() 与 raw_input()

Python 的 input() 与 raw_input()Python中用于接收键盘输入的方法有input()与raw_input()。

2016-12-13 11:48:35 3470

转载 Apache Kafka:下一代分布式消息系统

原文:http://www.wtoutiao.com/p/Ef6Jmn.htmlKafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏将会从架构设

2016-09-21 17:19:39 1384

原创 Hadoop Job 中 Map 与 Reduce 数量控制

在Hadoop 中提交的job 时常需要对其运行时的map task 和reduce task数量进行控制,reduce的数量可以通过setNumReduceTasks() 函数简单设置,但map task 数量并不简单由 setNumMapTasks() 控制。具体会影响到map task 数量的因素(参数)有: blockSize: HDFS block大小,默认为64MB totalSiz

2016-09-05 21:31:51 2600

原创 Python 内置函数 zip()

zip()是Python的一个内建函数,它接受一系列可迭代的对象作为参数,将对象中对应的元素按顺序组合成一个tuple,每个tuple中包含的是原有序列中对应序号位置的元素,然后返回由这些tuples组成的list。若传入参数的长度不等,则返回list的长度和参数中长度最短的对象相同。在所有参数长度相同的情况下,zip()与map()类似,没有参数的情况下zip()返回一个空list。

2016-08-22 12:32:30 10280

翻译 大数据 - 从理论到实践

原文: What is Big Data – Theory to ImplementationJava Code Geeks联合创始人Byron Kiourtzoglou发表文章,从理论到实践剖析了大数据的4个V,并于文章最后分享了Java工程师可能会需要的13个主流开源大数据工具。

2016-08-22 10:29:18 2853

原创 Python 中的 file.flush() 与 os.fsync()

在Python 官方文档https://docs.python.org/2/library/stdtypes.html?highlight=file%20flush#file.flush 关于file.flush() 的说明中写道:“ flush() does not necessarily write the file’s data to disk. Use flush() followed by

2016-08-14 23:28:48 8375

原创 Python 中的线程安全(threadsafe) 与 GIL

Python 中的线程安全(thread-safe)与 GIL线程安全是在多线程的环境下,能够保证多个线程同时执行时程序依旧运行正确, 而且要保证对于共享的数据可以由多个线程存取,但是同一时刻只能有一个线程进行存取。多线程环境下解决资源竞争问题的办法是加锁来保证存取操作的唯一性。通常加锁也有2种不同的粒度的锁: 1. fine-grained(细粒度),程序员需要自行加/解锁来保证线程安全 2.

2016-08-14 22:40:51 14190 1

原创 Python 的 with ... as ... 语句

Python 的 with … as … 语句with从Python 2.5就有,需要from __future__ import with_statement,自python 2.6开始,成为默认关键字。 with 语句作为 try/finally 编码范式的一种替代,用于对资源访问进行控制的场合,确保不管使用过程中是否发生异常都会执行必要的“清理”操作,释放资源,比如文件使用后自动关闭、线程中

2016-08-04 15:58:40 2837

原创 Python iterable, iter(), __iter__, iterator, itertools

Python迭代器与iter()迭代器是在版本2.2被加入到python的,它为类序列对象提供了一个类序列的接口。Python的迭代无缝地支持序列对象,而且它还允许迭代非序列类型,包括用户定义的对象。 迭代器用起来很灵巧,可以迭代不是序列但表现出序列行为的对象,例如字典的键、一个文件的行,等等。使用循环迭代一个对象条目时,几乎分辨不出它是迭代器还是序列。开发者不必关注这些,因为Python让它像一

2016-08-04 13:46:23 2311

原创 Python list 之 append 和 extend

Python list 之 append 和 extend 的区别append和extend都仅只可以接收一个参数,append 任意,甚至是tuple,extend 只能是一个列表>>> myList = [1,2.0,'a']>>> myList[1, 2.0, 'a']>>> myList.append('APP')>>> myList[1, 2.0, 'a', 'APP']>>>

2016-08-04 13:45:25 2310

原创 Python 中的 set 与 frozenset

set与frozenset的区别ref : https://docs.python.org/2.4/lib/types-set.html 同多数语言一样,set表示集合,最重要的特性就是无序,所以Python中的set不支持indexing,但支持len(set),x in set 等操作。 set有两种类型,set和frozenset。 set是可变的,有add(),remove()等方法。

2016-08-04 13:43:06 1396

原创 进程与线程

多任务简单地说就是操作系统可以同时运行多个任务(或者叫应用程序,Application)。比如打开一个浏览器就是启动一个浏览器进程,打开一个播放器就是启动一个播放器进程。一个进程(Process)中可能同时处理多个任务,比如播放器要同时播放视频和音频,那么进程内的子任务称为线程(Thread)。一个进程至少包含一个线程。大部分操作系统(如Windows、Linux)的任务调度是采用时间片轮

2016-08-02 14:14:40 631

转载 SciPy Hierarchical Clustering and Dendrogram Tutorial

ref: https://joernhees.de/blog/2015/08/26/scipy-hierarchical-clustering-and-dendrogram-tutorial/This is a tutorial on how to use scipy's hierarchical clustering.One of the benefits of hi

2016-07-11 16:58:10 4192

转载 SQLite vs MySQL vs PostgreSQL: A Comparison Of Relational Database Management Systems

https://www.digitalocean.com/community/tutorials/sqlite-vs-mysql-vs-postgresql-a-comparison-of-relational-database-management-systemsIntroductionRelational databases have been in use for a l

2016-07-08 11:18:38 1570

翻译 sklearn 中 make_blobs模块使用

sklearn 中 make_blobs模块使用Abstractref: http://scikit-learn.org/0.17/modules/generated/sklearn.datasets.make_blobs.html Generate isotropic Gaussian blobs for clustering. 例如要生成5类数据(100个样本,每个样本有2个特征)

2016-06-27 16:39:17 23563 1

转载 HDInsight 简介

Windows Azure HDInsight ServiceHDInsight 是在 Windows Azure 上快速扩展 Apache Hadoop 技术堆栈(作为大数据分析的首选解决方案)的云实现。它包括 Storm、HBase、Pig、Hive、Sqoop、Oozie 等的实现。HDInsight 还可集成商业智能 (BI) 工具,例如 Excel、SQL Server Analysis

2016-01-08 02:01:48 9089 1

翻译 The Differences Between Data, Information and Knowledge

We frequently hear the words Data, Information and Knowledge used as if they are the same thing.By defining what we mean by data, information and knowledge – and how they interact with one another.

2015-10-25 16:21:39 3477

翻译 5个好用的开源数据挖掘软件

Data Mining is recognized as an essential tool by modern business since it is able to convert data into business intelligence thus giving an informational edge.

2015-10-21 09:36:31 5148

原创 Python 中的 str 与 unicode 编码处理

用 Python 处理中文时会经常发现乱码(字符串处理,读写文件,print),多数的做法是调用encode/decode进行调试,并没有明确思考为何出现乱码,所以调试时常出现错误。若要完全掌握字符编码的处理,必须理解基本知识如 字符编码 | ASCII | Unicode | UTF-8 等。 另外也有一些好的文章可以参考: 字符编码笔记:ASCII,Unicode和UTF-8

2015-10-20 23:39:05 1422

转载 个性化推荐的十大挑战

个性化推荐的十大挑战  个性化推荐很多人都知道,但其中不乏认识上的误区。有的人觉得个性化推荐就是细分市场和精准营销,实际上细分市场和精准营销往往是把潜在的用户分成很多群体,这固然相比基于全体的统计有了长足的进步,但是距离“给每一个用户量身定做的信息服务”还有很大的差距,所以,只能说个性化推荐是细分市场的极致!还有人觉得个性化推荐就等同于协同过滤,这可能是因为协同过滤应用比较广泛并且比较容易为大

2015-08-10 14:38:30 8143

原创 PyInstaller 打包 Python 源码为 exe 可执行文件

最近用 Python 写的一个爬虫运行在 Windows 系统中,为了方便启动程序,考虑将 Python 源文件打包成 exe 可执行文件。目前发现的工具主要有两种,一是 PyInstaller ,另一个是 py2exe 。当然如果不怕麻烦还可也选择手动编译的方式。软件环境:Windows 7, Python 2.7。1.PyInstaller:1.1 简介通过 PyIns

2014-11-14 12:35:36 3095

翻译 Python 内置 time 模块 API 中文档案

fadfasfasfdasfas15.3. time — Time access and conversions

2014-09-02 11:36:45 3359

原创 Django 使用 MySQL 存储时间中遇到的问题(在数据库中记录插入时间、更新时间、删除时间)

一、MySQL 的时间存储格式首先,把 MySQL 的时间类型做一下解释。在 MySQL 中,表示时间值的DATE和时间类型为 DATETIME、DATE、TIMESTAMP、TIME和YEAR。每个时间类型有一个有效值范围和一个“零”值,当指定不合法的 MySQL 不能表示的值时使用“零”值。TIMESTAMP 类型有专有的自动更新特性。        1. DATE,日期。支持的范围为

2014-08-20 16:09:47 16705

原创 Java Runtime 执行系统命令行程序

以前写过一篇文章,介绍通过 Java 的 Runtime 类执行操作系统命令行程序:Java调用linux系统shell执行命令。最近项目中又有需要用这个方法,在使用过程中遇到了一些新的问题,感觉以前没有弄清楚,故在此做补充学习记录。    先说明一下这次的需求,在 Java 程序中控制 Hadoop 命令执行 MapReduce 作业,并获取其输出内容。本来没有什么特殊,但由于 MR 执行的

2014-08-20 15:49:05 6518 1

原创 Linux 系统 history 命令详解

history命令在linux系统中可以说是为我们ti

2014-06-13 15:01:04 9474 1

翻译 Running Celery as root

问题解决参考zhttp://stackoverflow.com/questions/20346851/running-celery-as-root

2014-04-28 15:18:24 2924

原创 CentOS 下 python-dev 叫做 python-devel

在使用pythUbuntu下叫做python-dev,CentOS下叫做python-devel,标记一下。

2014-04-28 15:12:03 16849 2

原创 Python 的包管理工具 distribute, setuptools, easy_install 与 pip

刚开始学习Python时,看资料和别人介绍中提到过,安装Python的包有的用easy_install, setuptools, 有的使用pip,distribute。现在把这些相关的资料整理一下,能更清晰的了解Python的设计,关于这些可以参考http://guide.python-distribute.org/installation.html。

2014-04-28 14:34:21 8963

转载 版本分类

α(Alpha)版此版本表示该软件仅仅是一个初步完成品,通常只在软件开发者内部交流,也有很少一部分发布给专业测试人员。一般而言,该版本软件的bug(漏洞)较多,普通用户最好不要安装。主要是开发者自己对产品进行测试,检查产品是否存在缺陷、错误,验证产品功能与说明书、用户手册是否一致。β(beta)版该版本相对于α版已有了很大的改进,消除了严重的错误,但还是存在着一些缺陷,需要

2014-04-28 11:01:16 1481

原创 python 网络编程(TCP & UDP)

1 TCP方式     1.1 server:def tcpServer(): srvsock = socket.socket( socket.AF_INET, socket.SOCK_STREAM) srvsock.bind(('', 9527)) srvsock.listen(5) while True: clisoc

2014-04-28 10:48:31 1325

原创 CentOS 下 VNC Server 的配置与使用

VNC 是一款优秀的远程控制工具软件,由著名的 AT&T 的欧洲研究实验室开发的。VNC 是在基于 UNIX 和 Linux 操作系统的免费的开源软件,远程控制能力强大,高效实用,其性能可以和 Windows 和 MAC 中的任何远程控制软件媲美。 在 Linux 中,VNC 包括以下四个命令:vncserver,vncviewer,vncpasswd,和 vncconnect。大多数情况下用户只需要其中的两个命令:vncserver 和 vncviewer。下面详细说一下VNC服务的安装配置和使用。

2014-04-27 01:47:07 11061

转载 为 Hadoop 的存储层增加对 OpenStack Swift 的支持

背景在 Hadoop 中有一个抽象文件系统的概念,它有多个不同的子类实现,由 DistributedFileSystem 类代表的 HDFS 便是其中之一。在 Hadoop 的 1.x 版本中,HDFS 存在 NameNode 单点故障,并且它是为大文件的流式数据访问而设计的,不适合随机读写大量的小文件。本文将探讨通过使用其他的存储系统,例如 OpenStack Swift 对象存储,作为

2014-04-25 09:17:24 2026

翻译 Apache Hadoop over OpenStack Swift(在swfit框架上运行Hadoop)

Apache Hadoop over OpenStack Swift原文地址:http://bigdatacraft.com/archives/349 By Camuel Gilyadov, on March 1st, 2012This is a post by Constantine Peresypkin and David Gruzman.本文由Constantine Pe

2014-02-26 17:47:06 2299

InceptorManual_T00151x-03-010_2017-12-07.pdf

Transwarp Inceptor是星环科技推出的用于数据仓库和交互式分析的大数据平台软件,它基于Hadoop和Spark技术平台打造,加上自主开发的创新功能组件,有效的解决了企业级大数据数据处理和分析的各种技术难题,帮助企业快速的构建和推广数据业务。

2020-05-11

Hadoop 2.2.0 64位native文件(重编译)

Hadoop 2.2.0版本中在64为linux系统上运行所需要的native库文件。需要时用此native文件夹覆盖Hadoop 2.2.0中native文件夹即可。

2014-05-09

江苏统计年鉴2012

2012年江苏统计年鉴,官方发布正式版本。

2012-12-14

java执行linux命令

java执行linux本地命令的类,并返回字符串。在CentOS 6.3上已经测试正常运行。

2012-11-02

mysql参考手册

mysql参考手册中文版,这是关于5.1版至5.1.2-alpha版MySQL数据库系统的参考手册

2012-04-18

w3school.chm

w3cschool的文档,本地chm版。

2012-04-18

疯狂Java讲义 源代码

疯狂Java讲义,李刚编写,配套源代码完整版。

2012-04-02

经典SQL语句

经典SQL语句,基础类和提高类,同时还包括实例演示,以及数据库的相关配置。

2012-04-02

PHP中文函数手册

中文版PHP5函数查询手册,chm文件。包含内容: Apache特定函数库,图形函数库,GNU记录函数库,数组函数库 IMAP,POP3和NNTP函数库,Perl相容正规表达函数库,拼字检查函数库,LDAP函数库,正规表达函数库,BC高精准度函数库,邮件函数库,信号与共享记忆体函数库,历法函数库,数学函数库,Session函数库,COM函数库 Mcrypt编码函数库,Shockwave Flash函数库,Class/Object函数库,Mhash函数库,SNMP函数库,日期与时间函数库,杂项函数库,字符串函数库,目录函数库,MySQL函数库,URL函数库,动态载入函数库,网路函数库,变量函数库,文件系统函数库,PDF函数库,Vmailmgr函数库,FDF函数库,信用卡交易函数库,WDDX函数库,FTP函数库,PHP选项与资讯函数库,XML函数库,GNU gettext函数库,程式执行函数库,YP/NIS函数库,HTTP函数库 Pspell函数库,压缩函数库,ICAP函数库 GNU Readline函数库,PHP4新增的部份语法。

2012-01-31

PHP编码规范手册

php编码规范手册,chm文件,中国php联盟 中国php开源项目组编。

2012-01-31

2011网商发展指数报告

出自阿里巴巴数据研究中心公开文件,2011年中国网商发展指数报告。

2011-11-06

ASCII标准对照表

ASCII标准对照表,XLS格式,包括 ASCII值 控制字符 ASCII值 控制字符

2011-08-22

Java编写的记事本程序

使用Java编写的记事本程序,有菜单栏,实现的菜单功能包括:新建、打开、保存、另存为、退出、剪切、复制、粘贴、删除、查找替换、高级查找替换、全选、时间日期、自动换行控制、字体、前景色、背景色、以及状态栏等。

2011-01-04

国际程序设计大赛的作品欣赏

有5个作品,均为国际软件设计大赛获奖作品。

2010-08-09

C/C++函数手册及MFC类库详解

包含两个帮助文档类型的文件,一个是C/C++函数手册,另一个是MFC类库详解。

2010-08-09

求线性方程组解的C语言程序

输入线性方程组的增广矩阵,求得线性方程组的解。可求出通解,程序、代码均在压缩包里。

2010-08-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除