- 博客(89)
- 资源 (16)
- 收藏
- 关注
原创 编译安装nginx并配置ssl加密的代理服务
编译安装nginx并配置ssl加密的代理服务前期准备安装编译需要的gcc和gcc-c++ yum install -y gcc gcc-c++ 安装nginx依赖pcre-devel、openssl-devel、zlib-devel yum install -y pcre pcre-devel openssl openssl-devel zlib zlib-devel 准备源码...
2018-04-02 10:15:02 1207
转载 理解皮尔逊相关系数(Pearson Correlation Coefficient)
要理解Pearson相关系数,首先要理解协方差(Covariance),协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下: cov(x,y)=∑ni=1(xi−xμ)(yi−yμ)n−1cov(x,y)=∑i=1n(xi−xμ)(yi−yμ)n−1 cov(x,y) = \dfrac{ \sum_{i=1...
2018-03-13 01:24:57 34746 1
原创 随机森林算法小结
随机森林算法1.随机森林原理介绍Random Forest 是 ensemble learning (集成学习?)算法的一种,它利用多棵树对样本进行训练并预测的一种分类器,同样也可用户回归,其输出的类别是由个别树输出的类别的众数而定。 该算法最早由Leo Breiman和Adele Cutler提出, 而”Random Forests”是他们注册的商标。
2017-01-12 10:41:39 6074
原创 决策树、ID3、C4.5以及CART算法小结
决策树、ID3、C4.5以及CART算法决策树模型在监督学习中非常常见,可用于分类和回归。虽然将多棵弱决策树的Bagging、Random Forest、Boosting等tree ensemble 模型更为常见,但是“完全生长”决策树因为其简单直观,具有很强的解释性,也有广泛的应用,而且决策树是tree ensemble 的基础,值得好好理解。
2017-01-02 19:56:52 9173
原创 Data Visualization - Dot Lang & Graphviz
Data Visualization - Dot Lang & Graphviz
2016-12-28 13:52:41 2362
原创 Huffman树与Huffman编码
Huffman树与Huffman编码Huffman树的定义Huffman Tree(哈夫曼/霍夫曼树)即最优二叉树,特点为给定n个权值作为n个叶子结点构造一棵二叉树,使得带权路径长度达到最小。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。在树的基本定义中,树的带权路径长度为树中所有叶子结点的带权路径长度之和
2016-12-20 22:10:10 2681
转载 Ubuntu Linux GUI desktop
原文地址: https://linuxconfig.org/how-to-install-gui-desktop-environment-on-ubuntu-linux-14-04-lts-trusty-tharHow to install GUI desktop environment on Ubuntu Linux 14.04 LTS (Trusty Thar)
2016-12-20 10:26:35 3620
原创 Python 的 input() 与 raw_input()
Python 的 input() 与 raw_input()Python中用于接收键盘输入的方法有input()与raw_input()。
2016-12-13 11:48:35 3470
转载 Apache Kafka:下一代分布式消息系统
原文:http://www.wtoutiao.com/p/Ef6Jmn.htmlKafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏将会从架构设
2016-09-21 17:19:39 1384
原创 Hadoop Job 中 Map 与 Reduce 数量控制
在Hadoop 中提交的job 时常需要对其运行时的map task 和reduce task数量进行控制,reduce的数量可以通过setNumReduceTasks() 函数简单设置,但map task 数量并不简单由 setNumMapTasks() 控制。具体会影响到map task 数量的因素(参数)有: blockSize: HDFS block大小,默认为64MB totalSiz
2016-09-05 21:31:51 2600
原创 Python 内置函数 zip()
zip()是Python的一个内建函数,它接受一系列可迭代的对象作为参数,将对象中对应的元素按顺序组合成一个tuple,每个tuple中包含的是原有序列中对应序号位置的元素,然后返回由这些tuples组成的list。若传入参数的长度不等,则返回list的长度和参数中长度最短的对象相同。在所有参数长度相同的情况下,zip()与map()类似,没有参数的情况下zip()返回一个空list。
2016-08-22 12:32:30 10280
翻译 大数据 - 从理论到实践
原文: What is Big Data – Theory to ImplementationJava Code Geeks联合创始人Byron Kiourtzoglou发表文章,从理论到实践剖析了大数据的4个V,并于文章最后分享了Java工程师可能会需要的13个主流开源大数据工具。
2016-08-22 10:29:18 2853
原创 Python 中的 file.flush() 与 os.fsync()
在Python 官方文档https://docs.python.org/2/library/stdtypes.html?highlight=file%20flush#file.flush 关于file.flush() 的说明中写道:“ flush() does not necessarily write the file’s data to disk. Use flush() followed by
2016-08-14 23:28:48 8375
原创 Python 中的线程安全(threadsafe) 与 GIL
Python 中的线程安全(thread-safe)与 GIL线程安全是在多线程的环境下,能够保证多个线程同时执行时程序依旧运行正确, 而且要保证对于共享的数据可以由多个线程存取,但是同一时刻只能有一个线程进行存取。多线程环境下解决资源竞争问题的办法是加锁来保证存取操作的唯一性。通常加锁也有2种不同的粒度的锁: 1. fine-grained(细粒度),程序员需要自行加/解锁来保证线程安全 2.
2016-08-14 22:40:51 14190 1
原创 Python 的 with ... as ... 语句
Python 的 with … as … 语句with从Python 2.5就有,需要from __future__ import with_statement,自python 2.6开始,成为默认关键字。 with 语句作为 try/finally 编码范式的一种替代,用于对资源访问进行控制的场合,确保不管使用过程中是否发生异常都会执行必要的“清理”操作,释放资源,比如文件使用后自动关闭、线程中
2016-08-04 15:58:40 2837
原创 Python iterable, iter(), __iter__, iterator, itertools
Python迭代器与iter()迭代器是在版本2.2被加入到python的,它为类序列对象提供了一个类序列的接口。Python的迭代无缝地支持序列对象,而且它还允许迭代非序列类型,包括用户定义的对象。 迭代器用起来很灵巧,可以迭代不是序列但表现出序列行为的对象,例如字典的键、一个文件的行,等等。使用循环迭代一个对象条目时,几乎分辨不出它是迭代器还是序列。开发者不必关注这些,因为Python让它像一
2016-08-04 13:46:23 2311
原创 Python list 之 append 和 extend
Python list 之 append 和 extend 的区别append和extend都仅只可以接收一个参数,append 任意,甚至是tuple,extend 只能是一个列表>>> myList = [1,2.0,'a']>>> myList[1, 2.0, 'a']>>> myList.append('APP')>>> myList[1, 2.0, 'a', 'APP']>>>
2016-08-04 13:45:25 2310
原创 Python 中的 set 与 frozenset
set与frozenset的区别ref : https://docs.python.org/2.4/lib/types-set.html 同多数语言一样,set表示集合,最重要的特性就是无序,所以Python中的set不支持indexing,但支持len(set),x in set 等操作。 set有两种类型,set和frozenset。 set是可变的,有add(),remove()等方法。
2016-08-04 13:43:06 1396
原创 进程与线程
多任务简单地说就是操作系统可以同时运行多个任务(或者叫应用程序,Application)。比如打开一个浏览器就是启动一个浏览器进程,打开一个播放器就是启动一个播放器进程。一个进程(Process)中可能同时处理多个任务,比如播放器要同时播放视频和音频,那么进程内的子任务称为线程(Thread)。一个进程至少包含一个线程。大部分操作系统(如Windows、Linux)的任务调度是采用时间片轮
2016-08-02 14:14:40 631
转载 SciPy Hierarchical Clustering and Dendrogram Tutorial
ref: https://joernhees.de/blog/2015/08/26/scipy-hierarchical-clustering-and-dendrogram-tutorial/This is a tutorial on how to use scipy's hierarchical clustering.One of the benefits of hi
2016-07-11 16:58:10 4192
转载 SQLite vs MySQL vs PostgreSQL: A Comparison Of Relational Database Management Systems
https://www.digitalocean.com/community/tutorials/sqlite-vs-mysql-vs-postgresql-a-comparison-of-relational-database-management-systemsIntroductionRelational databases have been in use for a l
2016-07-08 11:18:38 1570
翻译 sklearn 中 make_blobs模块使用
sklearn 中 make_blobs模块使用Abstractref: http://scikit-learn.org/0.17/modules/generated/sklearn.datasets.make_blobs.html Generate isotropic Gaussian blobs for clustering. 例如要生成5类数据(100个样本,每个样本有2个特征)
2016-06-27 16:39:17 23563 1
转载 HDInsight 简介
Windows Azure HDInsight ServiceHDInsight 是在 Windows Azure 上快速扩展 Apache Hadoop 技术堆栈(作为大数据分析的首选解决方案)的云实现。它包括 Storm、HBase、Pig、Hive、Sqoop、Oozie 等的实现。HDInsight 还可集成商业智能 (BI) 工具,例如 Excel、SQL Server Analysis
2016-01-08 02:01:48 9089 1
翻译 The Differences Between Data, Information and Knowledge
We frequently hear the words Data, Information and Knowledge used as if they are the same thing.By defining what we mean by data, information and knowledge – and how they interact with one another.
2015-10-25 16:21:39 3477
翻译 5个好用的开源数据挖掘软件
Data Mining is recognized as an essential tool by modern business since it is able to convert data into business intelligence thus giving an informational edge.
2015-10-21 09:36:31 5148
原创 Python 中的 str 与 unicode 编码处理
用 Python 处理中文时会经常发现乱码(字符串处理,读写文件,print),多数的做法是调用encode/decode进行调试,并没有明确思考为何出现乱码,所以调试时常出现错误。若要完全掌握字符编码的处理,必须理解基本知识如 字符编码 | ASCII | Unicode | UTF-8 等。 另外也有一些好的文章可以参考: 字符编码笔记:ASCII,Unicode和UTF-8
2015-10-20 23:39:05 1422
转载 个性化推荐的十大挑战
个性化推荐的十大挑战 个性化推荐很多人都知道,但其中不乏认识上的误区。有的人觉得个性化推荐就是细分市场和精准营销,实际上细分市场和精准营销往往是把潜在的用户分成很多群体,这固然相比基于全体的统计有了长足的进步,但是距离“给每一个用户量身定做的信息服务”还有很大的差距,所以,只能说个性化推荐是细分市场的极致!还有人觉得个性化推荐就等同于协同过滤,这可能是因为协同过滤应用比较广泛并且比较容易为大
2015-08-10 14:38:30 8143
原创 PyInstaller 打包 Python 源码为 exe 可执行文件
最近用 Python 写的一个爬虫运行在 Windows 系统中,为了方便启动程序,考虑将 Python 源文件打包成 exe 可执行文件。目前发现的工具主要有两种,一是 PyInstaller ,另一个是 py2exe 。当然如果不怕麻烦还可也选择手动编译的方式。软件环境:Windows 7, Python 2.7。1.PyInstaller:1.1 简介通过 PyIns
2014-11-14 12:35:36 3095
翻译 Python 内置 time 模块 API 中文档案
fadfasfasfdasfas15.3. time — Time access and conversions
2014-09-02 11:36:45 3359
原创 Django 使用 MySQL 存储时间中遇到的问题(在数据库中记录插入时间、更新时间、删除时间)
一、MySQL 的时间存储格式首先,把 MySQL 的时间类型做一下解释。在 MySQL 中,表示时间值的DATE和时间类型为 DATETIME、DATE、TIMESTAMP、TIME和YEAR。每个时间类型有一个有效值范围和一个“零”值,当指定不合法的 MySQL 不能表示的值时使用“零”值。TIMESTAMP 类型有专有的自动更新特性。 1. DATE,日期。支持的范围为
2014-08-20 16:09:47 16705
原创 Java Runtime 执行系统命令行程序
以前写过一篇文章,介绍通过 Java 的 Runtime 类执行操作系统命令行程序:Java调用linux系统shell执行命令。最近项目中又有需要用这个方法,在使用过程中遇到了一些新的问题,感觉以前没有弄清楚,故在此做补充学习记录。 先说明一下这次的需求,在 Java 程序中控制 Hadoop 命令执行 MapReduce 作业,并获取其输出内容。本来没有什么特殊,但由于 MR 执行的
2014-08-20 15:49:05 6518 1
翻译 Running Celery as root
问题解决参考zhttp://stackoverflow.com/questions/20346851/running-celery-as-root
2014-04-28 15:18:24 2924
原创 CentOS 下 python-dev 叫做 python-devel
在使用pythUbuntu下叫做python-dev,CentOS下叫做python-devel,标记一下。
2014-04-28 15:12:03 16849 2
原创 Python 的包管理工具 distribute, setuptools, easy_install 与 pip
刚开始学习Python时,看资料和别人介绍中提到过,安装Python的包有的用easy_install, setuptools, 有的使用pip,distribute。现在把这些相关的资料整理一下,能更清晰的了解Python的设计,关于这些可以参考http://guide.python-distribute.org/installation.html。
2014-04-28 14:34:21 8963
转载 版本分类
α(Alpha)版此版本表示该软件仅仅是一个初步完成品,通常只在软件开发者内部交流,也有很少一部分发布给专业测试人员。一般而言,该版本软件的bug(漏洞)较多,普通用户最好不要安装。主要是开发者自己对产品进行测试,检查产品是否存在缺陷、错误,验证产品功能与说明书、用户手册是否一致。β(beta)版该版本相对于α版已有了很大的改进,消除了严重的错误,但还是存在着一些缺陷,需要
2014-04-28 11:01:16 1481
原创 python 网络编程(TCP & UDP)
1 TCP方式 1.1 server:def tcpServer(): srvsock = socket.socket( socket.AF_INET, socket.SOCK_STREAM) srvsock.bind(('', 9527)) srvsock.listen(5) while True: clisoc
2014-04-28 10:48:31 1325
原创 CentOS 下 VNC Server 的配置与使用
VNC 是一款优秀的远程控制工具软件,由著名的 AT&T 的欧洲研究实验室开发的。VNC 是在基于 UNIX 和 Linux 操作系统的免费的开源软件,远程控制能力强大,高效实用,其性能可以和 Windows 和 MAC 中的任何远程控制软件媲美。 在 Linux 中,VNC 包括以下四个命令:vncserver,vncviewer,vncpasswd,和 vncconnect。大多数情况下用户只需要其中的两个命令:vncserver 和 vncviewer。下面详细说一下VNC服务的安装配置和使用。
2014-04-27 01:47:07 11061
转载 为 Hadoop 的存储层增加对 OpenStack Swift 的支持
背景在 Hadoop 中有一个抽象文件系统的概念,它有多个不同的子类实现,由 DistributedFileSystem 类代表的 HDFS 便是其中之一。在 Hadoop 的 1.x 版本中,HDFS 存在 NameNode 单点故障,并且它是为大文件的流式数据访问而设计的,不适合随机读写大量的小文件。本文将探讨通过使用其他的存储系统,例如 OpenStack Swift 对象存储,作为
2014-04-25 09:17:24 2026
翻译 Apache Hadoop over OpenStack Swift(在swfit框架上运行Hadoop)
Apache Hadoop over OpenStack Swift原文地址:http://bigdatacraft.com/archives/349 By Camuel Gilyadov, on March 1st, 2012This is a post by Constantine Peresypkin and David Gruzman.本文由Constantine Pe
2014-02-26 17:47:06 2299
InceptorManual_T00151x-03-010_2017-12-07.pdf
2020-05-11
Hadoop 2.2.0 64位native文件(重编译)
2014-05-09
PHP中文函数手册
2012-01-31
Java编写的记事本程序
2011-01-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人