2017年07月_djph26741

转载 numpy的scale就是 x-mean/std

>>> from sklearn import preprocessing>>> import numpy as np>>> a=np.array([[1.0,2.0,3.0], [4.0,5.0,9.0], [20,40.0, 80.0]])>>> scale(a, axis=0)array([...

2017-07-29 17:17:00 866

转载 DNS查询报文实例

2.2 DNS查询报文实例以www.baidu.com为例，用Wireshark俘获分组，结合2.1的理论内容，很容易看明白的，DNS请求报文如下：图7 DNS请求报文示例2.3 DNS回答报文实例DNS回答报文示例转载于:https://www.cnblogs.com/bonelee/p/7256085.html...

2017-07-29 15:32:00 211

转载十分钟搞定pandas

见原文链接：http://www.cnblogs.com/chaosimple/p/4153083.html本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考：Cookbook。习惯上，我们会按下面格式引入所需要的包：转载于:https://www.c...

2017-07-29 11:09:00 61

转载 numpy中的ndarray方法和属性

原文地址NumPy数组的维数称为秩（rank），一维数组的秩为1，二维数组的秩为2，以此类推。在NumPy中，每一个线性的数组称为是一个轴（axes），秩其实是描述轴的数量。比如说，二维数组相当于是一个一维数组，而这个一维数组中每个元素又是一个一维数组。所以这个一维数组就是NumPy中的轴（axes），而轴的数量——秩，就是数组的维数。Numpy库中的矩阵模块为ndarray对象...

2017-07-29 10:44:00 82

转载 NumPy和Pandas常用库

NumPy和Pandas常用库1.NumPy　　NumPy是高性能科学计算和数据分析的基础包。部分功能如下：ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数（无需编写循环）。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及傅里叶变换功能。...

2017-07-29 10:43:00 86

转载机器学习 LR中的参数迭代公式推导——极大似然和梯度下降

Logistic本质上是一个基于条件概率的判别模型(DiscriminativeModel)。函数图像为：通过sigma函数计算出最终结果，以0.5为分界线，最终结果大于0.5则属于正类(类别值为1)，反之属于负类(类别值为0)。如果将上面的函数扩展到多维空间，并且加上参数，则函数变成：接下来问题...

2017-07-29 09:14:00 213

转载 python fuzzy c-means demo

摘自：http://pythonhosted.org/scikit-fuzzy/auto_examples/plot_cmeans.html#example-plot-cmeans-py，加入了自己的理解！# coding: utf-8from __future__ import division, print_functionimport numpy as np...

2017-07-28 17:00:00 359

转载 python matplot 绘图

import numpy as npimport matplotlib.pyplot as pltplt.figure(1) # 创建图表1plt.figure(2) # 创建图表2ax1 = plt.subplot(211) # 在图表2中创建子图1ax2 = plt.subplot(212) # 在图表2中创建子图2x = np.linspace(0, 3...

2017-07-28 16:44:00 113

转载 yarn架构——本质上是在做解耦将资源分配和应用程序状态监控两个功能职责分离为RM和AM...

Hadoop YARN架构解读原Mapreduce架构原理架构图如下：图 1.Hadoop 原 MapReduce 架构原 MapReduce 程序的流程：首先用户程序 (JobClient) 提交了一个 job，job 的信息会发送到 Job Tracker 中，Job Tracker需要与集群中的机器定时通信 (heartbeat), ...

2017-07-27 20:29:00 149

转载 HDFS 文件格式——SequenceFile RCFile

HDFS块内行存储的例子HDFS块内列存储的例子HDFS块内RCFile方式存储的例子转载于:https://www.cnblogs.com/bonelee/p/7244187.html

2017-07-27 12:13:00 91

转载 mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储...

摘自：http://blog.fens.me/mahout-recommendation-api/测试程序：RecommenderTest.java测试数据集：item.csv1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.53,104,4.0...

2017-07-27 10:04:00 133

转载模型树——就是回归树的分段常数预测修改为线性回归对于非线性回归有较好的预测效果...

说完了树回归，再简单的提下模型树，因为树回归每个节点是一些特征和特征值，选取的原则是根据特征方差最小。如果把叶子节点换成分段线性函数，那么就变成了模型树，如（图六）所示：（图六）（图六）中明显是两个直线组成，以X坐标（0.0-0.3）和（0.3-1.0）分成的两个线段。如果我们用两个叶子节点保存两个线性回归模型，就完成了这部分数据的拟合。实现也比较简单，代码...

2017-07-26 20:30:00 147

转载 python 从bulkblacklist信誉查询网站提交查询

import urllib import urllib2 #import webbrowser import reimport socketdef is_domain_in_black_list(domain, ip): try_time = 3 url = "http://www.bulkblacklist.com/" ...

2017-07-26 10:55:00 82

转载 Linux与JVM的内存关系分析

Linux与JVM的内存关系分析原文出处：美团技术团队引言在一些物理内存为8g的服务器上，主要运行一个Java服务，系统内存分配如下：Java服务的JVM堆大小设置为6g，一个监控进程占用大约600m，Linux自身使用大约800m。从表面上，物理内存应该是足够使用的；但实际运行的情况是，会发生大量使用SWAP(说明物理内存不够使用了)，如下图所示。同时，由于S...

2017-07-25 17:33:00 77

转载 malloc和new出来的地址都是虚拟地址你就说内存管理单元怎么可能让你直接操作硬件内存地址！...

malloc的实现与物理内存自然是无关的，内核为每个进程维护一张页表，页表存储进程空间内每页的虚拟地址，页表项中有的虚拟内存页对应着某个物理内存页面，也有的虚拟内存页没有实际的物理页面对应。无论malloc通过sbrk还是mmap实现，分配到的内存只是虚拟内存，而且只是虚拟内存的页号，代表这块空间进程可以用，实际上还没有分配到实际的物理页面。等你的进程访问到这个新分配的内存空间的时候，如...

2017-07-25 17:27:00 108

转载 elasticsearch源码分析之search模块(server端)

elasticsearch源码分析之search模块(server端)继续接着上一篇的来说啊，当client端将search的请求发送到某一个node之后，剩下的事情就是server端来处理了，具体包括哪些步骤呢？过程一、首先我们来看看接收地方其实就是在org.elasticsearch.action.search.TransportSearchAction中，收到请求...

2017-07-25 11:17:00 153

转载 elasticsearch源码分析之search模块(client端)

elasticsearch源码分析之search模块(client端)注意，我这里所说的都是通过rest api来做的搜索，所以对于接收到请求的节点，我姑且将之称之为client端，其主要的功能我们可以简单地概括为将的数据请求发送到node，然后在对返回的结果做处理并返回给调用方，话虽如此，但是过程并非那么简单。请求初始化1、api的注册，上一篇已经提到了，所以的api...

2017-07-25 11:00:00 285

转载 Fuzzy C Means 算法及其 Python 实现——写得很清楚，见原文

Fuzzy C Means 算法及其 Python 实现转自：http://note4code.com/2015/04/14/fuzzy-c-means-%E7%AE%97%E6%B3%95%E5%8F%8A%E5%85%B6-python-%E5%AE%9E%E7%8E%B0/1.算法向算法的扩展在算法中，如果要将数据集合划分为个类，使得任意数...

2017-07-24 16:46:00 708

转载 spark Bisecting k-means（二分K均值算法）

Bisecting k-means（二分K均值算法）二分k均值（bisecting k-means）是一种层次聚类方法，算法的主要思想是：首先将所有点作为一个簇，然后将该簇一分为二。之后选择能最大程度降低聚类代价函数（也就是误差平方和）的簇划分为两个簇。以此进行下去，直到簇的数目等于用户给定的数目K为止。以上隐含着一个原则是：因为聚类的误差平方和能够衡量...

2017-07-24 16:06:00 269

转载 python spark kmeans demo

官方的demofrom numpy import arrayfrom math import sqrtfrom pyspark import SparkContextfrom pyspark.mllib.clustering import KMeans, KMeansModelsc = SparkContext(appName="clusteringE...

2017-07-24 15:20:00 208

转载百度开源其NLP主题模型工具包，文本分类等场景可直接使用L——LDA进行主题选择本质就是降维，然后用于推荐或者分类...

2017年7月4日，百度开源了一款主题模型项目，名曰：Familia。InfoQ记者第一时间联系到百度Familia项目负责人姜迪并对他进行采访，在本文中，他将为我们解析Familia项目的技术细节。什么是FamiliaFamilia 开源项目包含文档主题推断工具、语义匹配计算工具以及基于工业级语料训练的三种主题模型：Latent Dirichlet Allocation(L...

2017-07-24 11:13:00 185

转载谷歌开源可视化工具Facets，将用于人+AI协作项目研究——无非就是一个用于特征工程探索的绘图工具集，pandas可以做的...

见：http://www.infoq.com/cn/news/2017/07/goole-sight-facets-aihttps://github.com/PAIR-code/facets/blob/master/facets_dive/README.mdIntroductionThe facets project contains two visualization...

2017-07-24 10:57:00 110

转载机器学习案例特征组合——高帅富冷启动——从微博等其他渠道搜集数据进行机器学习用户年龄——线性分段处理...

摘自：http://www.infoq.com/cn/articles/user-portrait-collaborative-filtering-for-recommend-systems我们会从一个真实的案例出发，虽然我们做了很多的推荐系统的案例，但毕竟不能把客户的数据给大家看，所以我们用了一份公开的数据，这份数据和我们之前讲的场景是相似的。这份数据来自于 Kaggle，叫做 C...

2017-07-24 10:01:00 141

转载 pyspark MLlib踩坑之model predict+rdd map zip，zip使用尤其注意啊啊啊！

Updated:use model broadcast, mappartition+flatmap,see:from pyspark import SparkContextimport numpy as npfrom sklearn import ensembledef batch(xs): yield list(xs)N = 1000...

2017-07-21 16:12:00 202

转载高斯混合模型Gaussian Mixture Model (GMM)——通过增加 Model 的个数，我们可以任意地逼近任何连续的概率密分布...

从几何上讲，单高斯分布模型在二维空间应该近似于椭圆，在三维空间上近似于椭球。遗憾的是在很多分类问题中，属于同一类别的样本点并不满足“椭圆”分布的特性。这就引入了高斯混合模型。——可以认为是基本假设！高斯混合模型Gaussian Mixture Model (GMM)摘自：http://www.infocool.net/kb/Spark/201609/193351.html...

2017-07-21 09:40:00 293

转载随机森林算法demo python spark

关键参数最重要的，常常需要调试以提高算法效果的有两个参数：numTrees，maxDepth。numTrees（决策树的个数）：增加决策树的个数会降低预测结果的方差，这样在测试时会有更高的accuracy。训练时间大致与numTrees呈线性增长关系。maxDepth：是指森林中每一棵决策树最大可能depth，在决策树中提到了这个参数。更深的一棵树意味模型预测更有力...

2017-07-19 09:46:00 126

转载 spark 随机森林算法案例实战

随机森林算法由多个决策树构成的森林，算法分类结果由这些决策树投票得到，决策树在生成的过程当中分别在行方向和列方向上添加随机过程，行方向上构建决策树时采用放回抽样（bootstraping）得到训练数据，列方向上采用无放回随机抽样得到特征子集，并据此得到其最优切分点，这便是随机森林算法的基本原理。图 3 给出了随机森林算法分类原理，从图中可以看到，随机森林是一个组合模型，内部仍然是基于...

2017-07-19 09:18:00 251

转载 AngularJS 下拉列表demo

<!DOCTYPE html><html><head><meta charset="utf-8"><script src="https://cdn.bootcss.com/angular.js/1.4.6/angular.min.js"></script></head><...

2017-07-18 19:10:00 59

转载机器学习案例学习【每周一例】之 Titanic: Machine Learning from Disaster

下面一文章就总结几点关键：1、要学会观察，尤其是输入数据的特征提取时，看各输入数据和输出的关系，用绘图看！2、训练后，看测试数据和训练数据误差，确定是否过拟合还是欠拟合；3、欠拟合的话，说明模型不准确或者特征提取不够，对于特征提取不够问题，可以根据模型的反馈来看其和数据的相关性，如果相关系数是0，则放弃特征，如果过低，说明特征需要再次提炼！4、用集成学习，bagging...

2017-07-18 09:00:00 677

转载 sklearn中的数据预处理----good!! 标准化归一化在何时使用

RESCALING attribute data to values to scale the range in [0, 1] or [−1, 1] is useful for the optimization algorithms, such as gradient descent, that are used within machine learning algorithms ...

2017-07-17 20:15:00 195

转载 kaggle 中使用ipython

# pandasimport pandas as pdfrom pandas import Series,DataFrame# numpy, matplotlib, seabornimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snssns.set_style('wh...

2017-07-17 18:59:00 85

转载机器学习中的数据不平衡问题----通过随机采样比例大的类别使得训练集中大类的个数与小类相当，或者模型中加入惩罚项...

机器学习中的数据不平衡问题摘自：http://wap.sciencenet.cn/blogview.aspx?id=377102最近碰到一个问题，其中的阳性数据比阴性数据少很多，这样的数据集在进行机器学习的时候会使得学习到的模型更偏向于预测结果为阴性。查找了相关的一些文献，了解了一些解决这个问题的一些方法和技术。首先，数据集不平衡会造成怎样的问题呢。一般的学习器都...

2017-07-14 14:29:00 326

转载机器学习数据量不足问题----1 做好特征工程 2 不要用太多的特征 3 做好交叉验证使用线性svm...

来自：https://www.zhihu.com/question/35649122其实这里所说的数据量不足，可以换一种方式去理解：在维度高的情况下，数据相对少。举一个特例，比如只有一维，和1万个数据，那么这种情况下，我们可以认为数据量其实是足够的，因为数据密度相对来说很高。如果数据的维度有1000维，数据量仍然有1万，这种情况下，数据的密度就相当低了。引用wiki里的两句话...

2017-07-14 14:25:00 402

转载机器学习算法选择

转载于:https://www.cnblogs.com/bonelee/p/7170016.html

2017-07-14 14:08:00 47

转载 angular学习笔记(三十)-指令(4)-transclude

from:http://www.cnblogs.com/liulangmao/p/3951865.html本篇主要介绍指令的transclude属性:transclude的值有三个:1.transclude:false(默认值)不启用transclude功能.2.transclude:true启用transclude,启用以后,有两个地方会...

2017-07-14 11:07:00 135

转载摘要提取算法——本质上就是pagerank，选择rank最高的句子作为摘要，如果结合word2vec应该有非常好的效果...

最近需要做一些文本摘要的东西，选取了TextRank（论文参见《TextRank: Bringing Order into Texts》）作为对比方案，该方案可以很方便的使用Python相关库进行实现。下面介绍如何利用Python实现一个简单的文本摘要工具。Demo【前期准备】：Python 2.7.x - 当然也推荐Python3，少掉很多编码问题。信仰选2！...

2017-07-14 10:09:00 175

转载 spark 按照key 分组然后统计每个key对应的最大、最小、平均值思路——使用groupby，或者reduceby...

What you're getting back is an object which allows you to iterate over the results. You can turn the results of groupByKey into a list by calling list() on the values, e.g.example = sc.para...

2017-07-12 16:28:00 942

转载 python spark 通过key来统计不同values个数

>>> rdd = sc.parallelize([("a", "1"), ("b", 1), ("a", 1), ("a", 1)])>>> rdd.distinct().countByKey().items()[('a', 2), ('b', 1)]OR:from operator import addrdd...

2017-07-12 14:07:00 207

转载 spark rdd median 中位数求解

lookup(key)Return the list of values in the RDD for keykey. This operation is done efficiently if the RDD has a known partitioner by only searching the partition that the key maps to.&gt...

2017-07-12 10:47:00 416

转载 python spark 求解最大最小平均

rdd=sc.parallelizeDoubles(testData);Now we’ll calculate the mean of our dataset.1LOGGER.info("Mean: "+rdd.mean());There ...

2017-07-12 10:15:00 110

空空如也

空空如也