Yt_Sports-CSDN博客

转载 Piwik的数据库表结构

Piwik的数据库结构图上图（点击可查看大图）Piwik的数据库结构按照简洁、效率和模块化进行设计。其数据库包含以下部分Statistics logger（统计记录）Users & Permissions（用户和权限）Site（网站）Archived data（存档数据）Debug / Info log（调试/信息记录）SQL query profiling（SQL

2016-08-22 19:30:14 4236

原创开源项目piwik搭建

一.搭建piwik之前，先介绍一下piwikPiwik是一个PHP和MySQL的开放源代码的Web统计软件. 它给你一些关于你的网站的实用统计报告，比如网页浏览人数, 访问最多的页面, 搜索引擎关键词等等… Piwik拥有众多不同功能的插件，你可以添加新的功能或是移除你不需要的功能，Piwik同样可以安装在你的服务器上面，数据就保存在你自己的服务器上面。你可以非常容易的插入统计图表到你的博

2016-08-19 17:49:08 1168

转载 B-Tree、B+树、B*树

B-树：多路搜索树，每个结点存储M/2到M个关键字，非叶子结点存储指向关键字范围的子结点；所有关键字在整颗树中出现，且只出现一次，非叶子结点可以命中； B+树：在B-树基础上，为叶子结点增加链表指针，所有关键字都在叶子结点中出现，非叶子结点作为叶子结点的索引；B+树总是到叶子结点才命中； B*树：在B+树基础上，为非

2016-08-18 12:38:40 459

原创 Linux下安装numpy，pandas，matplotlib

Linux版本Centos，python版本2.71.linux下自带python，python路径/usr/local/lib/python2.7。安装numpy，输入pip install numpy。如果没有pip，需要安装pip。从网上下载pip的tar包，进入pip文件夹，输入命令python setup.py install。2.安装pandas。输入pip install p

2016-07-12 10:15:05 13371

原创 windows下顺序安装numpy，matplotlib，scipy

最近在搞spark的mllib项目，可能需要python画图工具，于是分别在windows和linux下都试了一遍，一开始以为linux下怎么会出现图片呢，所以先在windows下画了个图，而linux下后来发现也可以画出图来。首先介绍windows下如何使用python画图，之后介绍linux下使用python画图。1. python版本3.4.3（windows64位）下载地址：h

2016-07-09 17:51:28 1899

转载希尔排序

假设待排序文件有10个记录，其关键字分别是：49，38，65，97，76，13，27，49，55，04。增量序列的取值依次为：5，2，1

2016-04-27 14:19:02 390

原创归并排序

归并操作(merge)，也叫归并算法，指的是将两个顺序序列合并成一个顺序序列的方法。如　设有数列{6，202，100，301，38，8，1}初始状态：6,202,100,301,38,8，1第一次归并后：{6,202},{100,301},{8,38},{1}，比较次数：3；第二次归并后：{6,100,202,301}，{1,8,38}，比较次数：4；第三次

2016-04-27 13:58:32 261

原创直接选择排序

例如:给定n=8，数组R中的8个元素的排序码为(8,3,2,1,7,4,6,5),则直接选择排序的过程如下所示初始状态 [ 8 3 2 1 7 4 6 5 ] 8 -- 1第一次 [ 1 3 2 8 7 4 6 5 ] 3 -- 2第二次 [ 1 2 3 8 7 4 6 5 ] 3 -- 3第三次 [ 1 2 3 8 7 4 6 5 ] 8 -- 4第四次

2016-04-27 13:53:05 293

转载经典排序算法 - 冒泡排序Bubble sort

经典排序算法 - 冒泡排序Bubble sort原理是临近的数字两两进行比较,按照从小到大或者从大到小的顺序进行交换,这样一趟过去后,最大或最小的数字被交换到了最后一位,然后再从头开始进行两两比较交换,直到倒数第二位时结束,其余类似看例子例子为从小到大排序,原始待排序数组| 6 | 2 | 4 | 1 | 5 | 9 |第一趟排序(外循环)第一次两两比较

2016-04-27 13:46:47 287

原创推排序举例

将整数数组（7-6-3-5-4-1-2）按照堆排序的方式原地进行升序排列，请问在第一轮排序结束之后，数组的顺序是_____。示例：89,-7,999,-89,7,0,-888,7,-7排序的过程：初始化最大堆原数组：将堆顶元素999移到有序区过程：（红色为需要调节的元素，黄色为有序区元素）同理，（再将堆顶元素89移到有序区，即与

2016-04-27 13:34:45 633

转载 weka 基础

1. 简介 WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名，而WEKA的主要开发者来自新西兰。详见 http://www.china-pub.com/computers/commo

2016-03-26 20:33:42 953

转载面向对象三大基本特性,五大基本原则

透切理解面向对象三大基本特性是理解面向对象五大基本原则的基础.三大基本特性是：封装,继承,多态所谓封装，也就是把客观事物封装成抽象的类，并且类可以把自己的数据和方法只让可信的类或者对象操作，对不可信的进行信息隐藏。封装是面向对象的特征之一，是对象和类概念的主要特性。简单的说，一个类就是一个封装了数据以及操作这些数据的代码的逻辑实体。在一个对象内部，某些代码或某些数据可以是

2016-03-26 20:21:20 345

转载 StringBuilder、StringBuffer和String三者的联系和区别

1. String 类 String的值是不可变的，这就导致每次对String的操作都会生成新的String对象，不仅效率低下，而且大量浪费有限的内存空间。 String a = "a"; //假设a指向地址0x0001 a = "b";//重新赋值后a指向地址0x0002，但0x0001地址中保存的"a"依旧存在，但已经不再是a所指向的,a 已经指向了其它地址。

2016-03-26 20:18:30 301

转载 JAVA GC机制

Java的一个重要优点就是通过垃圾收集器(Garbage Collection，GC)自动管理内存的回收，程序员不需要通过调用函数来释放内存。因此，很多程序员认为Java不存在内存泄漏问题，或者认为即使有内存泄漏也不是程序的责任，而是GC或JVM的问题。其实，这种想法是不正确的，因为Java也存在内存泄露，但它的表现与C++不同。随着越来越多的服务器程序采用Java技术，例如JSP，Ser

2016-03-26 20:11:22 433

原创 nohup 命令

关闭终端，什么方法能最简便的保证程序在后台稳定运行呢？nohup your_command args &For example:nohup java -jar XXX.jar ./XXX/ ./xxxx/ &

2016-03-22 16:16:24 399

原创线性回归

线性回归，是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。其表达形式为y = w'x+e，e为误差服从均值为0的正态分布。在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有

2016-03-07 13:25:06 904

转载利用Intellij IDEA构建开发环境

转载自董的博客本文链接地址: http://dongxicheng.org/framework-on-yarn/apache-spark-intellij-idea/（1）准备工作1）安装JDK 6或者JDK 72）安装scala 2.10.x (注意版本)2）下载Intellij IDEA最新版（本文以IntelliJ IDEA Communi

2016-03-02 09:38:55 611

转载 Spark：用Scala和Java实现WordCount

http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写scala，今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀，学会之后，用起来很顺手。关于如何搭建scala和IDEA开发环境，请看文末的参考资料。用Scala和Java实现WordCount，其中Java实现的JavaWordCount是sp

2016-03-02 09:27:51 624

转载 Spark-KMeans文本聚类

1 实验环境部署1.1 主机环境处理器 Intel(R) Core(TM)2 Duo CPU 2.80GHz内存 8.00GB操作系统 WIN7SP1 64bit1.2虚拟机环境VMware® Workstation 10.0.2 build-1744117处理器 2Core内存 4GB操作系统 Ubuntu12.04 LTS Desktop 32

2016-01-07 11:30:28 5745 5

转载 Scala var && val

Scala var && val说到底还是 immutable的区别。在写 scala 代码的时候可能有这样的错误提示，如下，scala> val name = "lyx"name: String = lyx scala> name = "lyx,hello":8: error: reassignment to val name = "lyx,hell

2016-01-05 15:20:48 765

转载聚类算法:DBSCAN

DBSCAN：是一种简单的，基于密度的聚类算法。本次实现中，DBSCAN使用了基于中心的方法。在基于中心的方法中，每个数据点的密度通过对以该点为中心以边长为2*EPs的网格(邻域)内的其他数据点的个数来度量。根据数据点的密度分为三类点： (1)核心点：该点在邻域内的密度超过给定的阀值MinPs。 (2)边界点：该点不是核心点，但是其邻域内包含至少一个核心点。

2016-01-04 17:30:21 678

转载聚类算法:凝聚层次聚类

凝聚层次聚类：所谓凝聚的，指的是该算法初始时，将每个点作为一个簇，每一步合并两个最接近的簇。另外即使到最后，对于噪音点或是离群点也往往还是各占一簇的，除非过度合并。对于这里的“最接近”，有下面三种定义。我在实现是使用了MIN，该方法在合并时，只要依次取当前最近的点对，如果这个点对当前不在一个簇中，将所在的两个簇合并就行： (1)单链(MIN):定义簇的邻近度为不同两个簇

2016-01-04 16:37:07 11423 1

转载聚类算法:K均值

在数据挖掘中，K-Means算法是一种cluster analysis的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。基本K均值：选择K个初始质心，其中K是用户指定的参数，即所期望的簇的个数。每次循环中，每个点被指派到最近的质心，指派到同一个质心的点集构成一个簇。然后，根据指派到簇的点，更新每个簇的质心。重复指派和更新操作，直到质心不发生明显的变化。

2016-01-04 15:51:37 752

转载逻辑回归算法

什么是逻辑回归？Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalizedlinear model）。这一家族中的模型形式基本上都差不多，不同的就是因变量不同。如果是连续的，就是多重线性回归；如果是二项分布，就是Logistic回归；

2016-01-04 11:16:28 561

转载 Java追加写入文件方法

方法一：public void method1() {FileWriter fw = null;try {//如果文件存在，则追加内容；如果文件不存在，则创建文件File f=new File("E:\\dd.txt");fw = new FileWriter(f, true);} catch (IOException e) {e.printStackTrace();}Pri

2015-12-31 18:28:19 2730

原创各模式下运行spark自带实例SparkPi

此系统是ubuntu，spark版本是1.0.0（下载的不是源码，而是编译好的，在我的其他文章里有下载网盘地址），hadoop版本2.2.0，scala版本2.10.41.spark-sunbmit命令：spark1.0之前的版本运行自带例子使用$SPARK_HOME/bin/run-example命令，对于spark1.0以后做出了改进，使用$SPARK_HOME/bin/spark

2015-12-29 10:39:43 24085 3

转载 Apache Spark学习：利用Scala语言开发Spark应用程序

转载董的博客作者:Dong | 新浪微博：西成懂本文链接地址:网址:http://dongxicheng.org/framework-on-yarn/spark-scala-writing-application/本博客的文章集合:http://dongxicheng.org/recommend/Spark内核是由Scala语言开发的，因此使用Scala语言开发Spark应用程序是自

2015-12-28 13:25:48 803

原创 Spark的Example---SparkPi

SparkPi.scal的源代码分析：1.代码在examples/src/main/scala/org/apache/spark/examples目录下2.代码（修改了部分源码）内容如下：import scala.math.randomimport org.apache.spark._/** Computes an approximation to pi */object S

2015-12-28 11:10:53 971

原创 linux 每次关机后重启都要手动source /etc/profile

linux 每次关机后重启，对于输入java,hadoop,scala等命令都说没有该命令，醉了！每次都要手动source /etc/profile才好。解决办法：直接敲入：gedit .bashrc，在文件中加入source /etc/profile 这行语句就行啦

2015-12-24 20:32:11 6153 2

原创 hadoop2 no datanode to stop

我的 no datanode to stop和别人的不一样，别人的大概都是pid放到了/tmp的目录下，被回收导致的，导致无法结束datanode进程，只能kill。而我的是在slave机器上可以看到master结束了datanode进程，但是在master执行./sbin/stop-all.sh时显示no datanode to stop。最后发现原因是，master格式化了nameno

2015-12-24 17:12:24 546

原创 linux上安装spark1.0.0

此系统是ubuntu！前提你已经安装scala和jdk，spark的运行依赖于scala2.10.4，具体下载安装等等，在我的博客都已说明。1.下载spark-1.0.0-bin-hadoop2.tar.gz，下载链接为：http://pan.baidu.com/s/1c0PxMpi2.解压到你的某个文件夹里tar -xzvf spark-1.0.0-bin-hadoop2.tar.gz

2015-12-17 21:48:36 586

原创 Linux下配置hadoop2.2.0集群

本文所涉及的Linux系统均为Ubuntu！首先，准备必备的一些软件安装包。1.下载jdk1.6，下载链接为http://pan.baidu.com/s/1sk4U1Yl 2.下载hadoop2.2.0.tar.gz，下载链接为http://pan.baidu.com/s/1mh4yXpI3.下载Ubuntu，下载链接：http://pan.baidu.com/s/1numLYH

2015-12-17 18:15:14 501

原创在配置hadoop集群时常用到的基本命令

1.解压文件到指定目录tar -zxvf ./text.tar.gz -C /home/app/test/将text.tar.gz 解压到 /home/app/test/ （绝对路径）下2.创建目录及子目录：mkdir - p {filename1,filename2,filename3,filename4}（文件名）实现。3.远

2015-12-17 14:49:50 414

转载 Ubuntu修改计算机名称

查看当前的计算机名：$ hostname修改计算机名：方法一：$ sudo hostname [新的计算机名]$ sudo reboot方法二：$ sudo vi /etc/hostname 或者$ sudo gedit /etc/hostname PS.真是太low了，最近才发现修改编辑文件不用vi，用ged

2015-12-17 12:13:13 823

原创一只笨鸟在实现ssh免密码登录的足迹

自太阳从东边升起以来，我就发现每逢我在电脑上安装配置些东西的时候，都会来点小插曲。这是故意整我吗？好了，上我从头给大家说说实现ssh免密码登录。我是以root身份来登录的。在用ssh登录别的服务器时，你得先知道，你也可以连接本机（localhost或者127.0.0.1）。一定要跟着以下步骤，包括目录的权限也要和我的一致哦！不一致就会连不上，本人被这个坑了好久！前提ssh已经安装（

2015-12-16 14:55:44 543

原创 C#读取中文，但输出乱码

读取含有中文的.txt文件时，输出时却是乱码。其实未必是filewriter的encoding要改，而可能是filereader的encoding要改。也就是说读取汉字的时候就是乱码，那么输出就是乱码。所以要先看看filereader。这是给成UTF-8后可以正确的解决问题。原来是default，所以不对。

2015-12-14 16:33:42 3548

原创 linux安装Scala

此系统是ubuntu！1.首先下载Scala-2.10.4.tgz 。链接为http://pan.baidu.com/s/1o7yoYYe。然后放到你想放的文件夹2.解压文件。敲入：tar -xzvf scala -2.10.4.tgz3.配置环境变量。在/etc/profile中添加如下图内容：其中SCALA_HOME的内容是scala-2.10.4文件夹

2015-12-13 22:36:43 456

原创 linux安装JDK

此系统是ubuntu！首先检查是否已经安装JDK 敲入命令java，若是下图显示，则未安装。安装步骤：1.下载jdk1.6，下载链接为2.将下载的jdk放入你想放到的文件夹里，在次文件夹里敲入命令：chmod 777 jdk-6u45-linux-x64.bin3.开始安装，敲入：sudo ./ jdk-6u45-linux-x64.bin4

2015-12-13 21:31:55 343

原创 winSCP无法连接Linux

此系统是ubuntu的！连接错误如下：第一步：查看是否安装ssh？输入ps -e|grep ssh,如果没安装就是如下图所示。第二步：下载ssh。输入如下命令。apt-get install openssh-server等待下载完毕就行了。第三步：查看安装ss

2015-12-13 21:09:36 4979

转载 HDFS的运行原理

简介HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。HDFS有很多特点： ① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。 ③ 适合大

2015-12-11 13:35:09 434

piwik数据库文档

python3.4.3-64位

Eclipse python插件

逻辑回归算法PPT

急！！！求大神写一个简单的scala程序，在此谢过！！