自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 linux-文件系统

学习鸟哥的linux私房菜基础学习篇操作系统的文件数据除了文件实际内容外,通常含有非常多的属性,例如linux的文件权限与文件属性等。文件系统通常会将这两部分数据分别存放在不同的区块,权限与属性放置到inode中,至于实际数据则放置到data block区块中。另外还有一个超级区块会记录整个文件系统的整体信息,包括inode与block的总量、使用量、剩余量等。superblock:记录此filesystem的整体信息,包括inode/block的总量、使用量,剩余量,以及文件系统的格式与相关信息等i

2021-01-28 18:09:26 161

原创 linux-权限管理

Linux是个多人多任务的系统,因此常常会有多人同时使用这部主机来进行工作。所有需要有拥有者,群组,其他人这几个角色所有系统上的账号与一般身份使用者,还有root的相关信息,都是记录在/etc/passwd这个文件内。个人密码记录在/etc/shadow文件下,组名记录在/etc/group内-rw-r–r--第一个字符代表这个文件是目录,文件或链接文件等[d]表示目录[-]表示文件[I]则表示为连结档[b]可供储存的接口设备[c]串行端口设备,例如键盘、鼠标chgrp(change gr

2021-01-28 15:38:54 263

原创 根据表结构进行造数,作为测试使用

代码和详细解释见连接:https://github.com/zwj-7/python

2021-01-25 19:32:17 245

原创 python整数,浮点数,字符串补0

整数前面补0:a=5‘%04d’%a结果为:‘0005’,数值型变为字符串型小数后面补0:a=1.456373344‘%.010f’%a结果为:‘1.4563733440’,数值型变为字符串型字符串型:str.zfill(width)zfill() 方法返回指定长度的字符串,原字符串右对齐,前面填充0...

2020-09-23 11:58:11 1768 1

原创 python实现两个txt文件内容对比

两个txt文件是从数据库导出来的,含有主键。从网上找了文件对比的方法:MD5:将两个文件使用md5,如果两个文件的md5相等就说明两个文件内容相同。cmpfile:python中的一个专门库比较两个文件这两种均无法把两个文件中内容不同的部分保存下来,而且对于两个文件内容相同仅是顺序不同,也无法进行判断。因此本人自己写了一个程序进行比较,因为txt文件中含有主键,所以借用字典的数据结构,key值保存主键。三种方法的程序,如下所示:import hashlibdef file_compare1(

2020-09-23 11:53:02 4659 1

原创 orcale中的\*+ append*\

*+ append*\一般用于INSERT INTO中,比如:INSERT INTO \*+ append*\ TABLEA select * from TABLEBappend顾名思义,是将数据加到表的最后,不会在表的空闲快中插入数据,使用append可以提高数据的插入速度。数据库归档与非归档:Oracle数据库有联机重做日志,这个日志是记录对数据库所做的修改,比如插入,删除,更新数据等,对这些操作都会记录在联机重做日志里。一般数据库至少要有2个联机重做日志组。当一个联机重做日志组被写满的时候

2020-08-26 09:05:38 958

原创 DataStage job解锁

上一次强制退出datastage的job,再一次登入的时候发现该job被锁定,变成只读模式。解决办法如下:(1)打开administrator,点击项目-命令(2)在命令中输入输入命令LIST.READU,从该命令中找到被锁定的作业,以及其对应的编号;再输入命令:UNLOCK USER “编号” ALL,其中编号是前个命令中你查询出来的。但是这时候,在command弹出“verb unlock is not in you voc"弹出这时候需要在命令中依次执行SET.FILE UV VOC

2020-08-05 17:00:19 1364 1

原创 在内网使用pip install

如果在公司内网需要使用pip install,需要使用代理服务器pip install pyecharts --proxy http://username:password@ip地址:端口号

2020-08-05 16:51:42 718

原创 推导式

推导式是一种将for循环,if表达式以及赋值语句放到单一语句中产生序列的一种方法。列表推导式string=['china','japan','usa','uk']upper_string=[x.upper() for x in string if len(x)>2]#从string列表中找出长度大于2的字符并将其转换为大写upper_string=['CHINA','JAPAN',...

2019-05-27 22:12:22 140

原创 python数据结构与序列

1 列表列表是一种有序序列,各元素用逗号分隔,写在[]中,也可以用list函数来定义,可随时添加和删除其中的元素a=[1,2,3,4,5,6,7,8,9]1.1列表索引和切片索引从左到右是从0开始,从右到左是从-1开始a[0]=1a[-1]=9列表切片可以通过“:”隔开的两个索引来实现。如果提供两个索引作为边界,则第一个索引的元素包含在切片内,而第二个则不包含在切片内(即上界不包...

2019-05-27 21:55:10 155

原创 RDD的分区计算-mapPartitions

spark中RDD计算是以分区为单位的,而且计算函数都是在对迭代器复合,不需要保存每次计算的结果。mapPartitions的输入函数是应用于每个分区,也就是把每个分区的内容作为整体来处理的:def mapPartitions[U:ClassTag](f:Iterator[T]=>Iterator[U], preservesPartitioning:Boolean=false):RDD[U...

2019-04-21 15:13:45 1758

原创 RDD中map与flatMap函数的区别

map[U](f:(T)=>U):RDD[U]flatMap[U](f:(T)=>TraversableOnce[U]):RDD[U]map操作是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD,任何原RDD中的元素在新RDD中有且只有一个元素对应。flatMap操作与map类似,区别是原RDD中的每个元素经过map处理后只能生成一个元素,而在flatMap中原RD...

2019-01-21 20:18:44 1288

原创 RDD分区及重新分区

rdd划分成很多的分区(partition)分布到集群的节点,分区的多少涉及对这个rdd进行并行计算的粒度。分区是一个概念,变换前后的新旧分区在物理上可能是同一块内存或存储,这种优化防止函数式不变性导致的内存需求无限扩张。在rdd中用户可以使用partitions方法获取RDD划分的分区数,当然用户也可以设定分区数目。如果没有指定将使用默认值,而默认值是该程序所分配到的cpu核数,如果是从hdfs...

2019-01-21 19:57:02 5029

原创 spark 2.2.0 scala eclipse运行wordcount 例子

在runcount.scala中写入代码

2018-12-02 20:50:38 413

原创 类别不平衡对分类器的影响及其影响因素

类别不平衡是指在分类任务中不同类别的训练样本数目差别很大的情况,导致分类结果会偏向于大类,影响分类效果。类别不平衡对朴素贝叶斯分类器的影响类别不平衡对SVM的影响![在这里插入图片描述](https://img-blog.csdnimg.cn/20181126102618932.png?x-oss-process=image/watermark,type_ZmFuZ3poZ...

2018-12-02 16:44:16 4112

原创 spark系统架构与节点

spark 采用主从(master/slave)架构构建计算机集群其中client为提交spark程序的节点。其余为spark分布式集群中的物理节点,可以分为两类,集群管理节点(clustermaster)和从节点(slave)clustermaster节点:clustermaster是整个集群的核心,它并不执行实际的计算任务,而是负责管理整个集群的计算资源(除clustermaster节点外...

2018-12-02 16:10:06 2143

原创 scala eclipse运行spark 2.2.0

工具:IDE SCALA 4.7 eclipsespark 2.2.01新建一个scala 工程,2添加库(这里采用在建工程的时候增加库),点击Next,进入下一个界面:3点击Add External JARS按钮,添加库,将spark下的jars包全部添加进去。点击finish即可4接下来需要修改scala的版本,右击击下图的Scala Library container,选...

2018-12-02 16:08:54 306

原创 jupyter-notebook 以yarn模式运行出现的问题及解决

jupyter-notebook 以yarn模式运行的出现的问题及解决方法之前用pyspark虚拟机只跑了单机程序,现在想试试分布式运算。在做之前找了书和博客来看,总是有各种各样的问题,无法成功。现在特记录一下过程:这里一共有两个虚拟机,一个做master,一个做slave1虚拟机slave1安装sparkslave1之前已经安装了hadoop,并且可以成功进行Hadoop集群运算。这...

2018-11-21 10:53:01 2731

原创 python smote算法实现理解

代码参考:https://blog.csdn.net/Yaphat/article/details/52463304?locationNum=7import randomfrom sklearn.neighbors import NearestNeighborsimport numpy as npclass Smote: def __init__(self,samples,N=1...

2018-11-19 10:23:19 4218

原创 python class 的学习

class Student(object): pass类是抽象的模板。在上面的代码中,类student是从object继承而来的,object是所有类最终都会继承的类。bart=Student()创建bart实例bart.name = 'Bart Simpson'可以自由地给一个实例变量绑定属性。class Student(object): def __init...

2018-11-19 09:38:27 273

原创 运行sparkstreaming的NetworkWordCount不能出现

代码:from pyspark import SparkContextfrom pyspark.streaming import StreamingContextsc = SparkContext("local[2]","NetworkWordCount")ssc = StreamingContext(sc, 1)line

2018-11-13 17:04:17 665

翻译 两个rdd函数的理解及python3不能使用元组

def get_mapping(rdd,idx): return rdd.map(lambda fields:fields[idx]) .distinct().zipWithIndex().collectAsMap()定义了一个映射函数,首先将idx列的特征值去重,然后对每个值使用zipWithIndex()映射到一个唯一的索引。键是变量,值是索引即将该段不重复的数据进行编号colle...

2018-11-13 16:29:23 330

转载 pyspark streaming

转载 【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与MLlib机器学习   本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了。  第10-11 章主要讲的是Spark Streaming 和MLl...

2018-11-08 22:07:30 646

原创 anaconda pyspark 用着用着在终端出现错误ERROR SparkContext: Error initializing SparkContext

之前一直是可以使用anaconda pyspark,今天重新运行原来已有的模块时,出现错误:“spark"模块没有定义。于是用sc.master试试有没有出错,仍旧出错。终端日志:其实有好大一串,我就复制了下面一点ERROR SparkContext: Error initializing SparkContext. java.net.BindException: Cannot assign ...

2018-11-07 09:28:43 809

原创 pyspark 用fit训练数据集的时候出现"Params must be either a param map or a list/tuple of param maps,

在anaconda用决策树训练数据,from pyspark.ml.classification import DecisionTreeClassifierdt=DecisionTreeClassifier(labelCol="label",featuresCol="features")dt_model=dt.fit(dfff)出现错误没办法,最后通过谷歌搜索,最后猜测可能是当我用c...

2018-10-31 19:41:45 1628

原创 RDD,DataFrame,Spark Sql

RDD APIrdd的获取途径:(1)利用sc.textFile()从本地文件系统或者hdfs文件系统获得(2)通过已存在的rdd 进行转换,如map运算(3)将已有的集合,通过调用sparkcontex的parallelize实现在得到rdd后,可以用take查看一下数据的格式,以逗号还是空格分隔,是否字段用双引号进行括起来,然后再进行下一步的处理。若字段用双引号括起来,可以用下面的...

2018-10-26 11:01:38 555

原创 centos7 在jupyter-notebook 使用pyspark

发布文章 昨天好不容易可以在centos上使用jupyter-notebook,但是在代码块写入import pyspark时却提示无模块,今天看到一篇博客,原来是没有配置/etc/profile中PYTHONPATH使用jupyter-notebook --allow-root:http://blog.51cto.com/175779/204572...

2018-10-24 21:35:39 801

原创 vmware workstation15 清理磁盘

自己本来在c盘安装虚拟机,一周左右发现虚拟机越用越大都达到30多G了,c盘快要撑满了。按照网上搜索的命令 vmware-tools-cmd disk shrink /出现错误,大概意思是不能使用。查百度找到原因,我的另外两个虚拟机是通过第一个克隆来的。真是欲哭无泪。也不知道为什么我的vmware上在虚拟机管理上选项的下级菜单就找不到清理磁盘的选项。没办法了,只能忍痛把之前搭建好的hdoop,sp...

2018-10-23 10:51:01 3724

原创 centos7jupyter-notebook 使用pyspark

昨天好不容易可以在centos上使用jupyter-notebook,但是在代码块写入import pyspark时却提示无模块,今天看到一篇博客,原来是没有配置/etc/profile中PYTHONPATH其中py4j-0.10.7-src.zip解压命令参考博客:https://blog.csdn.net/wxyjuly/article/details/79398559jupyter-...

2018-10-18 16:40:38 394

原创 spark rdd基础学习

RDD(Resilient Distributed Dataset)弹性分布式数据集三种运算1)转换(transformation):转换运算后的结果是产生另一个rdd,但是他不会立即执行而是等到动作时才实际运行2)动作(action):执行动作运算后,不会产生另外一个rdd。他会产生数值,数组或写入文件系统3)持久化(persistence):对于重复使用的rdd,可以将其持久化在内存中...

2018-10-17 11:08:05 207

原创 以yarn client和分布式集群方式运行spark-2.3.2-bin-hadoop2.6

修改配置文件/hadoop_opt/spark-2.3.2-bin-hadoop2.6/conf/spark-env.sh终端输入spark-shell --master yarn-client即可,最后出现如下截图注:输入命令spark-shell --master yarn --deploy-mode client也可...

2018-10-16 20:27:03 502

原创 centos ssh免密码登陆突然

终端输入:tail /var/log/secure -n 20发现有下面这样一句话:Oct 16 19:52:03 master sshd[4463]: Authentication refused: bad ownership or modes for directory /root意思是/root所有者权限不对。才想起来今天下午默认安装anaconda时,修改了该文件的权限在终端输入...

2018-10-16 20:02:47 95

原创 hadoop50070页面打不开以及hadoop dfsadmin -report出来的结果为

50070页面打不开用jps命令查看发现namenode没有启动解决办法:删掉master和slave虚拟机的hadoop.tmp.dir,dfs.name.dir,dfs.data.dir配置的目录,重新用hadoop namenode -format 格式化,再start-all.sh成功在终端输入hadoop dfsadmin -report,结果如下:[root@ma...

2018-10-16 14:58:02 1603

原创 搭建spark

参考书目:hadoop+spark 大数据巨量分析与机器学习整合开发实战#安装scala下载scala网址:https://www.scala-lang.org/files/archive/选择一个合适的版本,在master终端进入需要放置scala文件目录输入:wget http://www.scala-lang.org/files/archive/scala-2.12.7.tgz...

2018-10-15 17:11:12 255

原创 搭建伪分布式和集群hadoop

亲测了几位博主的博客,有效。感谢博主分享伪分布式:http://www.powerxing.com/install-hadoop/#集群式:https://blog.csdn.net/weixin_42490528/article/details/80752351http://www.ityouknow.com/hadoop/2017/07/24/hadoop-cluster-setup...

2018-10-15 11:12:54 86

原创 HADOOP-HDFS学习一

hadoop采用数据块多副本机制,默认把数据分成64MB,3个备份。一份放在一个机架内的本地节点,另一份放在同一 机架内的另一个节点,第三份放在另一机架的节点上。HDFS中的文件被划分为块大小相同的多个分块,作为独立的存储单元。文件的所有块并不需要存储在统一磁盘上,他们可以利用集群上的任意一个磁盘进行存储。HDFS文件系统采用一次写入,多次读取的模式,文件内容一经写入就不再更改,保持数据的一致...

2018-10-07 11:18:09 161

转载 数据结构与算法一

数据结构就是指一组数据的存储结构,算法是操作数据结构的方法。数据结构是为算法服务的,算法要作用在特定的数据结构之上。比如,因为数组具有随机访问的特点,常用的二分查找算法需要用数组来存储数据。但是如果选择链表这种数据结构,二分查找就无法工作了,因为链表并不支持随机访问。数据结构是静态的,它只是组织数据的一种方式。如果不在它的基础上操作构建算法,孤立的数据结构就是没用的。...

2018-09-27 09:13:18 95

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除