Lucky-zhou-CSDN博客

原创 eclipse中jar包管理

https://www.bbsmax.com/A/xl56xn9ozr/

2017-06-05 12:03:20 1390

转载逻辑回归

编码无悔 / Intent & Focused最优化之路MenuAbout / 关于Math concepts / 数学概念Software work / 瞎折腾Gallery泰晤士小镇松江新城站上海动物园滨江森林公园水乡周庄秋霞圃州桥老街古猗园共青森林公园朱家角Donate / 赞助[原创] 用人话解释机器学习中的L

2017-06-05 11:35:55 1041

转载 centos7 下mysql 安装

一、系统环境yum update升级以后的系统版本为[root@yl-web yl]# cat /etc/redhat-release CentOS Linux release 7.1.1503 (Core) 二、mysql安装一般网上给出的资料都是#yum install mysql#yum install mysql-server#yum install

2017-05-16 18:51:57 442

原创 Linux最小安装

http://www.linuxeye.com/Linux/2459.html

2017-05-15 18:41:57 1008

转载 VMware安装和注册码

5A02H-AU243-TZJ49-GTC7K-3C61NVF5XA-FNDDJ-085GZ-4NXZ9-N20E6UC5MR-8NE16-H81WY-R7QGV-QG2D8ZG1WH-ATY96-H80QP-X7PEX-Y30V4AA3E0-0VDE1-0893Z-KGZ59-QGAVFhttp://www.epinv.com/dl/6304.htmlVMware Wor

2017-05-12 17:37:06 2301

转载 mysql复制表

linux cmake 安装mysql5.5.11,以及更高版本linux释放内存脚本，解决ubuntu老是死机问题 >>mysql 复制表数据，表结构的3种方法张映发表于 2011-06-03分类目录： mysql标签：mysql,复制表什么时候我们会用到复制表？例如：我现在对一张表进行操作，但是怕误删数据，所以在同一

2017-05-11 10:24:14 458

转载 eclipse开发spark

原创文章，转载请注明：转载自www.cnblogs.com/tovin/p/3822985.html 一、软件下载　　maven下载安装：http://10.100.209.243/share/soft/apache-maven-3.2.1-bin.zip jdk下载安装：　　http://10.100.209.243/share/soft/j

2017-05-09 16:07:56 713

原创 Eclipse版本

1、Eclipse IDE for Java Developers 该版本适合Java开发者，集成CVS，Git，XML编辑器，Mylyn, Maven integration和WindowBuilder等插件。2、Eclipse IDE for Java EE Developers 该版本集成了Java ee开发常用插件，方便动态web网站开发。适合Java web开发者使用。集成了XML编辑

2017-05-08 16:46:16 515

转载 eclipse配置spark开发环境

前言　　无论Windows 或Linux 操作系统，构建Spark 开发环境的思路一致，基于Eclipse 或Idea，通过Java、Scala 或Python 语言进行开发。安装之前需要提前准备好JDK、Scala 或Python 环境，然后在Eclipse 中下载安装Scala 或Python 插件(Spark支持Java、Python等语言)。基本步骤如下：　　第一步：安装JDK

2017-05-08 14:28:39 11582 2

原创 githup

lucky-zhoujixiang_123

2017-05-06 14:34:30 527

转载 Java enum的用法详解

用法一：常量在JDK1.5 之前，我们定义常量都是： public static fianl.... 。现在好了，有了枚举，可以把相关的常量分组到一个枚举类型里，而且枚举提供了比常量更多的方法。public enum Color { RED, GREEN, BLANK, YELLOW } 用法二：switchJDK1.6之前的switch语句只支持int,

2017-05-06 10:47:45 353

原创 unzip解压所以文件

三种方法1. #find . -name '*.zip' -exec unzip {} \;2. #ls *.zip | xargs -n1 unzip3. #for i in * >;do >;unzip $i >;done

2017-05-04 15:49:03 594

原创 wget下载文件

wget -r -np -nH -R index.html http://url/including/files/you/want/to/download/解释一下各个参数的含义： -r : 遍历所有子目录 -np : 不到上一层子目录去 -nH : 不要将文件保存到主机名文件夹 -R index.html : 不下载 index.html 文件 def downlo

2017-05-04 15:24:03 1451

转载 MemSQL 取代 HDFS 与 Spark 结合，性能大幅提升

Apache Spark是目前非常强大的分布式计算框架。其简单易懂的计算框架使得我们很容易理解。虽然Spark是在操作大数据集上很有优势，但是它仍然需要将数据持久化存储，HDFS是最通用的选择，和Spark结合使用，因为它基于磁盘的特点，导致在实时应用程序中会影响性能（比如在Spark Streaming计算中）。而且Spark内置就不支持事务提交(commit transactions)。

2017-05-03 16:46:24 754

转载 memsql架构2

接上次的MemSQL分布式架构介绍(一)，原文在这里：http://docs.memsql.com/latest/concepts/distributed_architecture/首先上张图，是我根据自己的理解画的，如有错误还请大家指出几个概念1、MemSQL有两种类型的表：reference table 参照表数据分布在主 aggregator和每个leaf节点

2017-05-03 16:14:35 585

转载 memsql架构1

最近在了解MemSQL架构，看了些官方文档，在这里做个记录，原文在这里：http://docs.memsql.com/latest/concepts/distributed_architecture/ 分布式架构MemSQL的分布式架构被设计为直接的、简单的并且快速的。这里概述了MemSQL集群，包括各式组件的交互。同时介绍了当你执行一个查询或者管理操作的时候，MemSQL环境发生了什

2017-05-03 16:13:58 724

原创 memsql介绍

1. MemSQL通过将数据放置在内存中，并将SQL语句翻译为C++，来达到查询执行最优化。这使得MemSQL以难以置信的速度写入和读取数据。Frenkiel称，MemSQL比磁盘型数据库的执行速度快了30倍。2. 除了速度快外，对于开发者来说，MemSQL的另一个优势是可以与MySQL很好地结合。从本质上讲，当磁盘中的MySQL数据需要更少的性能和更高的持久性时， MemSQL则扮演一个高性

2017-05-02 15:13:20 1529

原创 shell学习

http://c.biancheng.net/cpp/shell/

2017-05-02 11:03:06 249

转载解释型语言和编译型语言

解释型语言和编译型语言的区别首先，我们编程都是用的高级语言(写汇编和机器语言的大牛们除外)，计算机不能直接理解高级语言，只能理解和运行机器语言，所以必须要把高级语言翻译成机器语言，计算机才能运行高级语言所编写的程序。说到翻译，其实翻译的方式有两种，一个是编译，一个是解释。两种方式只是翻译的时间不同。用编译型语言写的程序执行之前，需要一个专门的编译过程，通过编译系统（

2017-05-02 10:29:36 460

原创 Python 操作mysql

需要使用的模块：MySQLdb（大小写分清楚，不能错）windows下MySQLdb的安装：1.首先确保已经安装了mysql2.直接使用pip，我装的时候说找不到合适的版本3.快速安装（别人编译好的）：http://www.codegood.com/downloads4.自己编译，这个有点麻烦然后就可以import MySQLdb进行使用了：连接数据库没有什么难的，直接上代码：

2017-04-25 15:25:46 355

转载 pycharm 运行spark

之前在mac上调试hadoop程序（mac之前配置过hadoop环境）一直都是正常的。因为工作需要，需要在windows上先调试该程序，然后再转到linux下。程序运行的过程中，报Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate execut

2017-04-22 16:02:53 1273

转载 pycharm 配置spark运行环境

Date Fri 04 March 2016 TagsSpark /PyCharm /Python /pyspark 在本地搭建好Spark 1.6.0后，除了使用spark-submit提交Python程序外，我们可以使用PyCharm这个IDE在本地进行开发调试,提升我们的开发效率。配置过程也十分简单，在stackoverflow上搜索到的。同时，IntelliJ IDEA加入

2017-04-22 15:14:14 1965

原创学习网站

http://wiki.jikexueyuan.com/

2017-04-21 10:41:19 395

转载 pycharm注册码

以下仅供学习测试之用哦，建议官网下载购买。pycharm 2016 注册码（亲测可用）复制B1c2Ugb25seSIsImNoZWNrQ29uY3VycmVudFVzZSI6ZmFsc2UsInByb2R1Y3RzIjpbeyJjb2RlIjoiSUkiLCJwYWlkVXBUbyI6IjIwMTctMDItMjUifSx7ImNvZGUiOiJBQyIsInBhaWRVcFRvI

2017-04-21 10:20:33 4753

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2017-04-19 18:31:05 375

原创读文件常用方法

with open(Path + '/merge.txt','r') as myFile,open(Path + '/outFile.txt','a+') as outFile: while 1: lineall = myFile.readlines(1000000) a += 1 LOG.info(a) print a if not lineal

2017-04-19 15:24:53 399

原创常用日期处理

def date_format(Date): date_format = Date[:4] + '-' + Date[4:6] + '-' + Date[6:8] + ' ' + Date[8:10] + ':' + Date[10:12] + ':' + Date[12:14] return date_formatdef trans_date(Date): Date = Date.re

2017-04-19 15:18:54 276

原创 hive导出数据的几种方式

https://www.iteblog.com/archives/955.html

2017-04-17 14:52:07 711

转载 hive三种方式区别和搭建、HiveServer2环境搭建、HWI环境搭建和beeline环境搭建

说在前面的话　　以下三种情况，最好是在3台集群里做，比如，master、slave1、slave2的master和slave1都安装了hive，将master作为服务端，将slave1作为服务端。hive三种方式区别和搭建　　Hive中metastore（元数据存储）的三种方式：　　a)内嵌Derby方式　　b)Local方式　　c)Remote方式1.本地de

2017-04-17 14:43:10 3818

原创 Python中多进程之间的数据共享

Python中多进程之间的数据共享发表于 2016-07-24| 分类于Python|0|阅读次数387 多进程中，每个进程都是独立的，各自持有一份数据，无法共享。本篇文章介绍三种用于进程数据共享的方法queuesArrayManager.dictpipeQueue12345678910111213f

2017-04-15 18:15:52 14853 1

转载 python 多进程，多线程

本文摘自廖雪峰《Python教程》，部分内容有修改。多进程与多线程我们都知道，操作系统中所有的程序都是以进程的方式来运行的，或者说我们把运行着的程序称为进程(Process)。例如运行记事本程序就是启动一个记事本进程，运行两个记事本就是启动两个记事本进程。很多时候，进程还不止同时干一件事，比如Word，它可以同时进行打字、拼写检查、打印等事情。在一个进程内部，要同时干多件事，就需要

2017-04-15 10:27:52 1742

转载 numpy库

【Python科学计算（1）】 - Numpy库¶Numpy是高性能科学计算和数据分析的基础包。Numpy本身并没有提供多么高级的数据分析功能，理解 Numpuy 数组以及面向数组的计算将有助于你更加搞笑的使用诸如 pandas 之类的工具，如果你是Python新手，而且只是想随意处理一下数据就行，那就跳过本节吧，没关系的。一、ndarray数组基础¶P

2017-04-14 15:41:44 863 1

转载最新Spark编程指南Python版[Spark 1.3.0][译]

目录概述链接Spark 初始化Spark 使用Shell 弹性分布式数据集 (RDDs)并行化集合外部数据集 RDD 操作基本操作 Spark回调函数使用 Key-Value 对转换 (Transformations)动作 (Actions)RDD 持久化选择哪个存储级别? 删除数据共享变量广播变量

2017-04-14 15:25:21 4413

原创常用sql

CREATE TABLE merge_prolist(pro_id VARCHAR(255),channame VARCHAR(255), media VARCHAR(255),progname VARCHAR(255),first_name VARCHAR(255),last_name VARCHAR(255),PROG_NUM int(11),starttime datetim

2017-04-13 16:46:39 312

原创 python连接hive

由于版本的不同，Python 连接Hive 的方式也就不一样。在网上搜索关键字 python hive 的时候可以找到一些解决方案。大部分是这样的，首先把hive 根目录下的$HIVE_HOME/lib/py拷贝到 python 的库中，也就是 site-package 中，或者干脆把新写的 python 代码和拷贝的 py 库放在同一个目录下，然后用这个目录下提供的 thrift 接

2017-04-13 15:45:43 3214

原创 Linux 常用命令

1、cd命令这是一个非常基本，也是大家经常需要使用的命令，它用于切换当前目录，它的参数是要切换到的目录的路径，可以是绝对路径，也可以是相对路径。如：[plain] view plain copy print?cd /root/Docements # 切换到目录/root/Docements cd ./path # 切换到当前目录下的path目录中，“.”表示当前目录

2017-04-13 14:13:18 246

原创 Python性能优化的20条建议

1.优化算法时间复杂度算法的时间复杂度对程序的执行效率影响最大，在Python中可以通过选择合适的数据结构来优化时间复杂度，如list和set查找某一个元素的时间复杂度分别是O(n)和O(1)。不同的场景有不同的优化方式，总得来说，一般有分治，分支界限，贪心，动态规划等思想。2.减少冗余数据如用上三角或下三角的方式去保存一个大的对称矩阵。在0元素占大多数的矩阵里使用稀疏矩阵表示。3.合

2017-04-13 14:09:44 549

转载 mysql索引查询

此文转自http://blogold.chinaunix.net/u3/93470/showart_2001536.html1．索引作用在索引列上，除了上面提到的有序查找之外，数据库利用各种各样的快速定位技术，能够大大提高查询效率。特别是当数据量非常大，查询涉及多个表时，使用索引往往能使查询速度加快成千上万倍。例如，有3个未索引的表t1、t2、t3，分别只包含列c1、c

2017-04-12 12:57:59 494

空空如也

空空如也