徐志的博客

专注于spark和数据分析等大数据

排序:
默认
按更新时间
按访问量

spark处理中文乱码问题!!|����| | �㶫| | �Ϻ�| |����| |����| |����|

既然能看见这篇文章,说明你遇到是乱码问题,具体问题咱们就不再分析了,直接来看为什么乱码,如何不让它乱码 首先咱们分析为什么会乱码,首先因为spark没有自己读取文件的方式所以它采用了hadoop的读取文件的方式,因为日志的格式是GBK编码的,而hadoop上的编码默认是用UTF-8,导致最终输出...

2018-09-08 10:39:17

阅读数:454

评论数:0

IP地址转换成Long型数字算法和原理(全网最细!!)

将ip地址转换成数字地址的时候是我做一个归属地查询的项目是碰见的,开始我并不明白将IP转换成数字地址的原理,可能老师上课讲了但是没有好好听,我觉得想理解下面算法就应该理解IP地址和数字地址的原理(菜鸟专用(^_^)) IP地址一般是一个32位的二进制数意思就是如果将IP地址转换成二进制表示...

2018-09-07 11:51:23

阅读数:469

评论数:1

使用sparkSQL2.x读取MySQL方法和配置问题

读取数据之前需要你pc上有mysql,有了mysql之后你需要知道详细的配置信息例如账号和密码以及数据库下的表和表结构,你还有要连接驱动(点此下载https://download.csdn.net/download/qq_36968512/10471651) 1.首先你需要创建sparksess...

2018-09-06 14:33:38

阅读数:461

评论数:0

使用Python进行数据分析--------------NumPy基础:数组和矢量计算

NumPy(Numerical重点内容 Python的简称) 是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。 NumPy的部分功能如下: - ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 - 用于对...

2018-09-04 20:42:35

阅读数:591

评论数:0

关于解决使用sqoop导出数据到mysql中文乱码问题!!!

当我们使用mysql的时候一般情况下都会出现乱码情况,出现这种情况的主要原因一般就是导入的数据和mysql数据的原始编码方式不同造成的,下面就是我的乱码案例: 咱们先看下自己的编码表 一般输入下面这个命令:show variables like 'character%';能查看到以下内容 ...

2018-08-14 15:17:36

阅读数:1968

评论数:1

MongoDB配置复制集和分片!!!

首先在确保你的电脑安装过mongodb和把mongodb的bin目录写到path里面并且成功运行过的情况下来操作如下步骤 复制集: 1同一个文件夹下面写入新建三个文件夹如下图 类似与这种,然后再每个文件下新建立两个文件(nodex对应datax和logx)和一个win的可执行文件(PS:...

2018-08-14 15:17:30

阅读数:1618

评论数:0

关于centos完美安装MsSql数据库!!!(不看肯定后悔的一定后悔!!!!

刚刚入门linux的是的小白们好多都不明白是怎么一回事,但是你用的时间长了,就会发现linux真的很好用,废话不说了,直接开始正题!!! 1.centos7一般会自带数据库  所以大家在安装的一定要先卸载这个自带的数据库! 输入下面命令:   rpm -qa|grep mariadb ...

2018-08-14 15:17:21

阅读数:1768

评论数:1

linux中HADOOP_HOME和JAVA_HOME清除掉但是依然有效解决方案!!!!

场景: 在平时我们学习或者开发的时候有时候会遇到当我们升级jdk的时候会发现升级之后依然还是以前的版本(HADOOP_HOME也是一样)然我很苦恼!!! 然后从大佬那里听来了一个有效的解决方案!!有两个 第一: 关机重启!!!(小白程序员专用) 在使用服务器的时候千万不要这么玩,会挨打的...

2018-08-14 15:17:11

阅读数:1731

评论数:0

Spark的低成本安装(win) and 三节点集群安装(linux)

我这里给出两种安装spark的方式,一种是在win上安装另一种就是在linux集群上安装,前一种安装方式是一种低成本的安装没有shell界面,非常适合入过门的小白练习自己对spark的业务处理能力,而且这种安装方式能对电脑省去一大笔的cpu所以个人比较喜欢,第二种安装方式就是和之前安装hadoop...

2018-08-14 15:17:00

阅读数:1503

评论数:0

字符串和字符编码

由于计算机是美国人发明的,因此,最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。 但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定...

2018-08-14 15:16:50

阅读数:1489

评论数:0

spark怎么创建RDD,一个创建RDD的方式有哪些它们的区别是什么!!(Unit2)

spark的编程接口包括 1.分区信息,数据集的最小分片     (1)Patitions()用法:   scala> val part=sc.textFile("/user/README.md",6) part: org.apach...

2018-08-14 15:16:39

阅读数:1786

评论数:0

Python学习之————————模块!

1.首先一个.py文件就是一个模块 2.使用模块的好处 能大大提高代码的可维护性 而且可以自己的写的代码块也可以以后为自己所用 3.使用模块还可以避免函数名和变量名冲突 4.相同模块名的是我们引入了按目录组织模块的方法---包(package) 举个例子,一个abc.py的文件就是一个名...

2018-08-14 15:16:23

阅读数:1154

评论数:0

如何在IDEA创建scrapy工程

进入doc输入activate 然后进入你想创建scrapy工程的文件输入以下代码 scrapy startproject 项目名 工程创建结束之后会有这几个文件和文件夹 如下图的 进入有个cfg文件的目录,以后操作都是在这个目录下比如创建Sprders和爬虫等等。。 计入air_...

2018-08-04 21:33:46

阅读数:1084

评论数:0

error: Microsoft Visual C++ 14.0 is required.CommandCommand "g:\anaconda3\python.exe -u -c "import s

如果在安装python模块的时候报错的话类似下面这些 error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools&am...

2018-08-04 17:38:52

阅读数:1020

评论数:0

sparkSQL基础之-----------2.0以前的sql创建

我这里创建的方式就是两种 一,通过RDD和case class的关联来进行创建 1.创建SparkConf和SparkContext val conf=new SparkConf() .setMaster("local") ...

2018-07-28 11:38:04

阅读数:1428

评论数:0

2.0的spark的是是如何比1.0的快10-100倍

从三点来理解 1.更简单 支持标准的SQL和简化的API 一,在编程API方面,spark简化了API 二,统一了Scala/java下的Dataset和DataFraeam 三,只需要创建sparksession不再需要创建sparkcontext等系列的初始化对象 四,支持一些管道...

2018-07-18 16:17:33

阅读数:1547

评论数:0

spark源码分析and结构拆解(1)——消息通信原理!!

消息通信原理主要分为三大部分------------------------------------------------1.spark消息通信架构-------------------------------------------------------    spark在各个模块中间例如M...

2018-06-20 08:22:26

阅读数:1712

评论数:1

spark概念详解以及四大核心介绍!!!

Spark特点:大数据分布式计算框架,内存计算分布式计算内存计算 中间结果在内存 迭代容错性多计算范式四大核心扩展功能: Spark SQL:Sql on hadoop系统,提供交互式查询、能够利用传统的可视化工具 在Spark上进行类似SQL的查询操作,报表查询等功能 GraphX:图计算引擎,...

2018-06-19 15:12:17

阅读数:1719

评论数:0

Spark的转换操作基础知识和一些使用技巧!!!(Unit3)

在阅读完最早之前的帖子(点击打开链接)说了如何理解RDD和什么是RDD和对一些基础的术语的解读示例,然后我又发了一份如何创建RDD(点击打开链接)我们这节课来学学习Spark的一些对RDD的转换操作,转换操作就是不会真的进行分布式计算,而是将RDD从一种状态转换到另外一种状态,延迟计算,当一个RD...

2018-06-14 15:55:24

阅读数:2272

评论数:0

spark的一些难以理解和一些冷门知识的解读(面试可能会问!!)(Unit1)

这篇文章是对于还没有入门和刚刚入门的spark小白提的,大佬可以给出意见,本人接受!!!关于RDD部分,首先你要知道什么什么RDDRDD字面意思就是弹性分布式数据集。。。。。。。(百度一下都是这种字眼很让人反感)个人感觉应该要分开理解1。弹性            1. RDD可以在内存和磁盘之间...

2018-06-12 16:49:21

阅读数:2411

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭