- 博客(47)
- 收藏
- 关注
原创 rdd不能嵌套rdd
df_all.show()a = [(1,df_all)]rdd = sc.parallelize(a)报错Py4JError: An error occurred while calling o131.__getnewargs__. Trace:py4j.Py4JException: Method __getnewargs__([]) does not exist
2017-06-02 09:20:18 4564
转载 图解正向代理、反向代理、透明代理
本文出自 “丁胖胖的BLOG” 博客,请务必保留此出处http://z00w00.blog.51cto.com/515114/1031287套用古龙武侠小说套路来说,代理服务技术是一门很古老的技术,是在互联网早期出现就使用的技术。一般实现代理技术的方式就是在服务器上安装代理服务软件,让其成为一个代理服务器,从而实现代理技术。常用的代理技术分为正向代理、反向代理和透明代理。本文就是针
2017-04-12 20:12:59 723
转载 Zookeeper分布式服务框架
原文链接:https://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/许 令波, Java 工程师, 淘宝网 分布式服务框架 Zookeeper -- 管理分布式环境中的数据 Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中
2017-04-06 13:56:25 707
转载 最大子序列和问题
原文链接 在hust快乐的学习 http://blog.csdn.net/hs794502825/article/details/7956730问题描述:给定一个整数序列,a0, a1, a2, …… , an(项可以为负数),求其中最大的子序列和。如果所有整数都是负数,那么最大子序列和为0;例如:对于序列-2, 11, -4, 13, -5, –2。 所求的最大子序列
2017-04-01 21:39:53 841
转载 Java transient关键字使用小记
原文链接 http://www.cnblogs.com/lanxuezaipiao/p/3369962.htmlJava transient关键字使用小记 哎,虽然自己最熟的是Java,但很多Java基础知识都不知道,比如transient关键字以前都没用到过,所以不知道它的作用是什么,今天做笔试题时发现有一题是关于这个的,于是花个时间整理下transient
2017-04-01 15:05:04 467
原创 linux部分命令整理
sed常用选项 -n∶使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN的资料一般都会被列出到萤幕上。但如果加上 -n 参数后,则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。 -i∶直接修改读取的档案内容,而不是由萤幕输出。 常用命令: a ∶新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)~
2017-03-08 21:57:55 532
原创 ftp服务器配置用户权限(系统用户)
Ubuntu 用vsftpd 配置FTP服务器安装ftpsudo apt-get install vsftpd配置vsftpd.confsudo vim /etc/vsftpd.conf#禁止匿名访问anonymous_enable=NO#接受本地用户local_enable=YES#允许上传write_enable=YES#用户只能访问限制的目录chroot_local_user=Y
2017-03-02 21:00:43 5090
原创 数据清洗经验
数据为什么需要清洗字段缺失前后结构不一致数据取值范围不对不是易于分析的格式清洗数据技巧使用断言 Assertions 例如每条记录有4个字段,断言之; 某个字段是整数,断言之。反正,能断言的都断言,不要嫌麻烦。对于不完整或者损坏的记录,不要默默跳过 可以打印出提示信息,方便之后查找 记录跳过记录的条数,和总记录数,看看比例如果有枚举字段,且种类多,可以不用断言,遇到新种类时打印
2017-03-02 20:57:29 861
转载 Java内部类详解
Java内部类详解 说起内部类这个词,想必很多人都不陌生,但是又会觉得不熟悉。原因是平时编写代码时可能用到的场景不多,用得最多的是在有事件监听的情况下,并且即使用到也很少去总结内部类的用法。今天我们就来一探究竟。下面是本文的目录大纲: 一.内部类基础 二.深入理解内部类 三.内部类的使用场景和好处 四.常见的与内部类相关的笔试面试题 若有不正之处,请多谅解并欢迎
2017-01-11 15:03:19 538
原创 Hadoop集群redhad离线安装Hive
参考文档http://dblab.xmu.edu.cn/blog/install-hive/ Ubuntu安装hive,并配置mysql作为元数据库 http://www.bkjia.com/Mysql/1093428.html Your password does not satisfy the current policy requirements,hy000satisfyHive安装Hi
2017-01-05 11:23:59 1066
原创 spark集群1.6.2升级为2.0.2
参考文档http://dblab.xmu.edu.cn/blog/1187-2/ Spark 2.0分布式集群环境搭建 http://blog.csdn.net/andy572633/article/details/7211546 linux下杀死进程(kill)的N种方法更改原有spark目录名可提前stop-all 将原有的spark改为spark1.6.2sudo mv /usr/lo
2017-01-05 11:03:37 2425
原创 MapReduce倒排索引实现
输入数据 输出数据代码package com.test.ReversedIndex;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org
2016-12-05 08:28:35 1376
转载 MapReduce之输入输出类型
使用Combiner遇到错误找到原因:Mapper与Combiner的输出均要与Reducer对应转载:http://blog.csdn.net/lucktroy/article/details/7957120 http://www.cnblogs.com/mdyang/archive/2011/07/12/data-intensiv
2016-12-04 11:08:20 911
原创 Hadoop实现表间关联
输入数据第一列:child 第二列:parent输出数据根据输入数据的父子关系,输出grandchild 和 grandparent 表格 第一列:grandchild 第二列:grandparent代码package com.test.Correlation;import java.io.IOException;import java.util.StringTokenizer;impor
2016-12-03 11:05:52 1393
转载 REST、SOAP、RPC概念认识
SOA:维基百科解释:SOA:面向服务的软件架构(Service Oriented Architecture),是一种计算机软件的设计模式,主要应用于不通应用组件中通过某种协议来互操作,例如典型的通过网络协议。因此SOA是独立于任何厂商、产品与技术的。SOA作为一种架构依赖于服务的方向,它的基本设计原理是:服务提供了一个简单的接口,抽象了底层的复杂性,然后用
2016-11-21 15:43:59 896
原创 python报错MemoryError
python报错MemoryErrorpython 32bit 最大只能使用 2G 内存,坑爹之处,超过 2G 报错MemoryError。而 64bit python则无此限制,所以建议使用 64bit python。 可能存在的问题:以前 numpy、scipy 官方的库只支持 32bit python,现在应该发布了 64bit 对应版本。
2016-11-14 14:49:45 19386
转载 「Ubuntu命令」安装和卸载
Ubuntu是最常用的Linux系统之一,其中很多新手在安装软件的过程中,由于对Linux不熟悉,往往不知道如何卸载干净,导致硬盘越来越大。废话不多说,直接上干货!命令最佳卸载命令apt-get remove packagename --purge && apt-get autoremove --purge && apt-get clean 卸载程序(包
2016-09-05 21:34:25 2386
原创 PostGIS安装
PostGIS安装sudo apt-get install PostGISsudo apt-get install postgresql-9.3-postgis-2.1PostGIS使用使用方式:创建数据库CREATE DATABASE example_gis;连接数据库\c example_gis;设置成空间数据库CREATE EXTENSION postgis;CREATE EX
2016-09-05 19:12:26 1597
原创 postgresql安装
1.安装postgresqlsudo apt-get install postgresql2.修改postgresql数据库默认用户postgres密码sudo -u postgres psqlALTER USER postgres WITH PASSWORD 'postgres';(一定要加分号)\q 退出3.修改linux用户postgres密码切换到root,删除postgresql用户
2016-09-05 19:10:40 503
转载 怎样合并字典最符合Python语言习惯?
转自EarlGrey的文章 http://codingpy.com/article/the-idiomatic-way-to-merge-dicts-in-python/这篇教程探讨了哪种合并字典的方式才是最符合Python语言习惯的(idiomatic)。首发于微信公众号“编程派”,阅读最新Python教程,请关注编程派。你有没有想过在Python中合并两个或以上字典?
2016-07-21 16:56:45 3497
转载 python 的日志logging模块学习
转自kenby的博客 http://kenby.iteye.com/blog/1162698一、从一个使用场景开始 开发一个日志系统, 既要把日志输出到控制台, 还要写入日志文件 Python代码 import logging # 创建一个logger logger = logging.getLogger('m
2016-07-18 09:50:40 1017
原创 Mapbox简易入门教程
Mapbox 是什么 Mapbox is a mapping platform for developers. An open source mapping platform for custom designed maps. 简单说,就是一款开源的地图开发平台。Mapbox 怎么用Mapbox 网页端 StudioStep 1:点击 New Style,选择地图样式,点击Create
2016-06-27 22:01:17 61997 3
转载 WGS84坐标系转火星坐标系
from __future__ import divisionfrom math import pi,sqrt,sin,cos# a python binding of https://on4wp7.codeplex.com/SourceControl/changeset/view/21483#353936# Krasovsky 1940## a = 6378245.0, 1/f = 298.
2016-06-21 16:38:11 3401
转载 快速排序
转自 http://ahalei.blog.51cto.com/4767671/1365285冒泡排序的时间复杂度达到了O(N2)。假如我们的计算机每秒钟可以运行10亿次,那么对1亿个数进行排序,桶排序则只需要0.1秒,而冒泡排序则需要1千万秒,达到115天之久,是不是很吓人。那有没有既不浪费空间又可以快一点的排序算法呢?那就是“快速排序”啦!光听这个名字是不是就觉得很高端呢。
2016-06-15 21:12:53 791
转载 浅谈算法和数据结构: 哈希表
作者: yangecnu(yangecnu's Blog on 博客园) 出处:http://www.cnblogs.com/yangecnu/ http://www.cnblogs.com/yangecnu/p/Introduce-Hashtable.html基于无序列表的顺序查找,基于有序数组的二分查找,平衡查找树,以及红黑树,下图是他们在平均以及最差情况
2016-06-15 20:11:31 2186
原创 Notes:De-anonymizing Programmers via Code Stylometry
Essay Information De-anonymizing Programmers via Code Stylometry Aylin Caliskan-Islam, Richard Harang, Andrew Liu, Arvind Narayanan, Clare Voss, Fabian Yamaguchi, and Rachel Greenstadt. Usen
2016-06-13 21:14:27 1112 1
原创 安装系统后鼠标不能动
安装系统后鼠标不能动1.USB设置 inter xHCI模式 智能自动改为关闭或自动 2.USB设置 警用USB Legacy Support
2016-06-13 20:51:27 5394
转载 Parallel Python 并行计算
原文链接 http://www.cnblogs.com/flyingis/archive/2009/11/12/1601574.html 作者: Flyingis最近在关注如何提升Python执行效率的问题,自己没有时间去深入研究,就直接选择了开源的Parallel Python,希望能够充分发挥多核CPU及集群环境的优势。 Parallel Python是Python进行分布
2016-04-26 15:16:45 4622
转载 python异常处理
本文转自http://www.cnblogs.com/dkblog/archive/2011/06/24/2089026.html异常#!/usr/bin/pythonimport tracebacktry: 1/0#except Exception,e:# print traceback.format_exc()except Exception as e: print e#!/usr/b
2016-04-18 18:54:43 417
原创 爬虫笔记
urllib2urlopen(url, data, timeout)第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlop
2016-04-11 20:46:38 4195
转载 ArcGIS 中的标准分类方法(相等、分位、自然断裂、标准差)
ArcGIS 中的标准分类方法(相等、分位、自然断裂、标准差▼相等间隔相等间隔会将属性值的范围划分为若干个大小相等的子范围。您可以指定间隔数,ArcGIS 将基于值范围自动确定分类间隔。例如,如果为取值范围为 0-300 的字段指定三个类,ArcGIS 将创建三个类,其取值范围分别为 0–100、101–200 和 201–300。相等间隔最适用于常见的
2016-04-11 09:13:04 67950 8
原创 python读取txt文件最后一行(文件大+文件小)
txt文件小#coding:utf-8'''fname为所读xx.txt文件输出为:文件第一行和最后一行'''fname = 'test.txt'with open(fname, 'r') as f: #打开文件 lines = f.readlines() #读取所有行 first_line = lines[0] #取第一行 last_line = lines[-
2016-04-05 20:33:36 27824 3
原创 Postgresql+ArcGIS数据对接
What电脑A上装数据库PostgreSQL 电脑B通过ArcGIS远程访问电脑A数据库How电脑A(Ubuntu/Linux服务器端)Linux下PostgreSQL安装配置安装postgresql sudo apt-get install postgresql修改PostgreSQL数据库的默认用户postgres的密码 sudo -u postgres psql (启动psql)
2016-04-05 19:36:31 5255
原创 readline&readlines
需求txt文件很大,难以打开,需要读取n行看看数据格式。开始with open(f1_name, 'r') as f1: contents1 = f1.readlines()[0:n_line] with open(f2_name, 'w') as f2: for line in contents1: f2.write(line)发现读个10行
2016-03-31 00:02:41 539
转载 Cassandra系列之入门
原文链接 http://my.oschina.net/zookeeper/blog/187169概述 Cassandra是一具有高扩展性,强调一致性,分布式,键值对存储(Key-Value)的NOSQL 分布式数据库。 它采用了Dynamo的分布式系统技术和Google BigTable的数据模型,拥有像Dynamo一样的数据最终一致性,BigTable一样的基于列簇的键值对存储。
2016-03-05 14:44:22 1125
原创 python爬豆瓣电影Top250
1.前期分析完成豆瓣电影Top250网站(https://movie.douban.com/top250)推荐电影名单的爬取 。 可见每页显示25部电影,总共10页.chrome按F12: 所以用正则表达式表示为<span.*?class="title">(.*?)</span>但符合这样的有两行:<span class="title">肖申克的救赎</span><span class="ti
2015-12-18 20:07:16 2070
原创 python读写Excel
由于工作需要,需要对 Excel 数据进行一些预处理,所以随便写了一点 python 处理 Excel 的方法。。。一、导入相应库xlrd:读入Excel xlwt:写入Excel安装命令如下:pip install xlrdpip install xlwt二、读入Excel1. Excel表格内容下图分别为 test.xlsx 的 sheet1 和 sheet2 数据: 2. 代码 code
2015-12-17 19:32:18 1406
原创 为什么深层神经网络难以训练
Conclusion5 为什么深层神经网络难以训练 Intuitively we’d expect networks with many more hidden layers to be more powerful. 原文链接:http://neuralnetworksanddeeplearning.com/chap5.html一、消失的梯度这些条表示了每个神经元上的dC/db,也就是代
2015-12-14 20:24:52 5277
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人