自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (2)
  • 收藏
  • 关注

原创 hive on spark后执行group by等查询时中文出现乱码问题

hive 中文乱码

2021-12-21 11:49:06 1190

原创 scala编程学习之十一-集合操作

11.1集合元素的映射-map映射操作11.1.1看一个实际需求要求:请将List(3,5,7) 中的所有元素都 * 2 ,将其结果放到一个新的集合中返回,即返回一个新的List(6,10,14), 请编写程序实现.11.1.2使用传统的方法解决 //传统写法 val list1 = List(3, 5, 7) var list2 = ListBuffer[Int]() ...

2020-01-14 16:08:23 861

原创 cloudera manager中部分nodemanager无法启动报错java.io.FileNotFoundException: /tmp/Jetty_0_0_0_0_43554_mapreduc

java.io.FileNotFoundException: /tmp/Jetty_0_0_0_0_43554_mapreduce____ljbmlg/webapp/webapps/mapreduce/.keep (No such file or directory)原因是nodemanager所在机器的/tmp目录的权限是755,而不是777执行如下命令即可:chmod -R 777 tmp...

2019-08-09 15:56:00 522

原创 爬虫破解腾讯网页翻译翻译文档内容

import reimport timeimport requestsfrom dataclasses import dataclassimport linecacheimport osdef get_filter(text): if isinstance(text, list): text = ''.join(text) text = str(te...

2019-06-05 17:43:13 1402

原创 python数据输出为文件乱码问题

df.to_csv(filename, encoding=“utf_8_sig”, index=False)utf-8为不带BOM格式,使用不带BOM格式输出的文件非英文容易乱码utf_8_sig为带BOM格式输出,使用带BOM格式输出文件中文不会乱码...

2019-05-30 10:26:08 1656

原创 excel数据导出成json文件

import pandas as pdimport json#excel数据写出为jsondef exceltojson(file_input, file_output): data = pd.read_excel(file_input) key_value = {} for i in range(data.__len__()): key = dat...

2019-05-27 20:12:17 2505

原创 远程连接服务器mongodb

如果报“pymongo.errors.InvalidURI: ‘:’ or ‘@’ characters in a username or password must be escaped according to RFC 2396”;记得一定要对密码进行编码from urllib import parsefrom pymongo import MongoClientdb_name='胡...

2019-04-12 16:32:51 1157 1

原创 Python将elasticsearch数据转移到mongdb

from pymongo import MongoClientfrom elasticsearch import Elasticsearchdef elasticsearch_to_mongodb(user, pwd, server, port, db_name, elasticsearch_url, elasticsearch_index): uri = 'mongodb://' ...

2019-04-08 19:58:09 250

原创 mongodb数据导出为csv,excel表格(通用)

import openpyxlfrom openpyxl import load_workbookfrom pymongo import MongoClientimport csvimport pandas as pdimport xlwt"""user 用户名pwd 密码server 服务器ipport 数据库端口号db_name 数据库名table_name 集合名f...

2019-04-03 15:12:32 1630

原创 python遍历指定文件夹

import osimport pandas as pdfilePath_list = ['./早会经营/早会组织', './早会经营/激励专题', './早会经营/节假日专题', './营销技巧/销售技巧', './营销技巧/高端客户', './费率表']for filepath_name in filePath_list: print(filepath_name) pri...

2019-04-03 15:01:08 386

原创 python爬虫-爬取今日头条街图片

import jsonimport osfrom urllib.parse import urlencodeimport requestsfrom hashlib import md5from bs4 import BeautifulSoupfrom lxml import etreefrom base import Toolsfrom requests.exceptions im...

2019-04-03 14:57:16 232

原创 python爬虫-使用IP代理爬取豆瓣读书图书信息

python爬虫-使用IP代理爬取豆瓣读书图书信息from urllib import requestfrom bs4 import BeautifulSoupbook.douban.comif __name__ == '__main__': for i in range(1, 5): url = 'https://market.douban.com/book/?u...

2019-04-03 14:50:15 696

原创 scala编程学习之十-数据结构(集合)

10.1数据结构特点1)Scala同时支持不可变集合和可变集合2)两个主要的包:不可变集合:scala.collection.immutable可变集合: scala.collection.mutable3)Scala默认采用不可变集合,对于几乎所有的集合类,Scala都同时提供了可变(mutable)和不可变(immutable)的版本4)Scala的集合有三大类:序列Seq、集S...

2018-12-13 16:57:17 353

原创 Scala编程学习之9-第 9 章隐式转换、隐式函数,隐式值

9.1隐式转换9.1.1提出问题先看一段代码,引出隐式转换的实际需要=>指定某些数据类型的相互转化object Scala01 { def main(args: Array[String]): Unit = { val num : Int = 3.5 //?错 val num2:Int = 4.6//? 错 高精度->低精度 ==》1. 强制转换 2...

2018-12-13 15:40:01 140

原创 Scala编程学习之八-第 8 章面向对象编程(高级)

8.1Scala中静态的概念-伴生对象Scala语言是完全面向对象(万物皆对象)的语言,所以并没有静态的操作(即在Scala中没有静态的概念)。但是为了能够和Java语言交互(因为Java中有静态概念),就产生了一种特殊的对象来模拟类对象,我们称之为类的伴生对象。这个类的所有静态内容都可以放置在它的伴生对象中声明和调用8.1.1伴生对象的快速入门object ClassObjectDemo ...

2018-12-13 10:49:39 241

原创 Scala编程学习之七-面向对象(中级)

7.1包7.1.1Scala包的基本介绍和Java一样,Scala中管理项目可以使用包,但Scala中的包的功能更加强大,使用也相对复杂些,下面我们学习Scala包的使用和注意事项。7.1.2Scala包快速入门package com.smalltiger.chapter07.useobject TestCat { def main(args: Array[String]): Un...

2018-12-03 20:04:31 344

原创 Scala控制结构和函数练习

1、一个数字如果为正数,则它的signum为1;如果是负数,则signum为-1;如果为0,则signum为0.编写一个函数来计算这个值object BankDemo { def main(args: Array[String]): Unit = { println(signum(20)) println(signum(0)) println(signum(-2))...

2018-12-03 18:31:18 555

原创 Scala编程学习之六-面向对象基础

6.1类与对象6.1.1问题的提出张老太养了只猫猫:一只名字叫小白,今年3岁,白色。还有一只叫小花,今年10岁,花色。请编写一个程序,当用户输入小猫的名字时,就显示该猫的名字,年龄,颜色。如果用户输入的小猫名错误,则显示 张老太没有这只猫猫。//问题1.因为猫有多个属性[年龄,姓名,颜色],属性的类型不一样.2.猫有自己的行为(cry, run, cal)3.需要一种新的数据类型,这种...

2018-12-02 19:26:27 1521

原创 Scala编程学习之五-函数式编程基础

5.1函数式编程内容5.1.1函数式编程内容函数式编程基础1)函数定义/声明2)函数运行机制3)递归 [推荐编程者递归来解决问题, 算法基础, 邮差问题,最短路径,背包问题, 迷宫,回溯 ]4)过程5)惰性函数和异常函数式编程高级1)值函数(函数字面量)2)高阶函数3)闭包4)应用函数5)柯里化函数,抽象控制…5.1.2函数式编程1)在scala中,函数式编程和面向...

2018-12-02 17:12:32 300

原创 Scala之循环练习(scala打印九九乘法表)

之一 package com.smalltiger.ConditionalExpression import scala.io.StdIn /** * Created by smalltiger on 2018/11/30. */ object Demo03 { def main(args: Array[...

2018-11-30 21:16:19 5832

原创 Scala编程学习之四-流程控制语句

1.程序流程控制介绍在程序中,程序运行的流程控制决定程序是如何执行的,是我们必须掌握的,主要有三大流程控制语句。温馨提示: Scala语言中控制结构和Java语言中的控制结构基本相同,在不考虑特殊应用场景的情况下,代码书写方式以及理解方式都没有太大的区别 [知道-》不会说 ]1)顺序控制2)分支控制(单分支, 双分支,多分支)3)循环控制2顺序控制2.1顺序控制介绍程序从上到下逐行...

2018-11-30 19:59:54 850

原创 Scala编程学习之三-运算符篇

1.运算符介绍运算符是一种特殊的符号,用以表示数据的运算、赋值和比较等。1)算术运算符2)赋值运算符3)比较运算符(关系运算符)4)逻辑运算符【与,或,非】5)位运算符 (位运算 ~ | ^ >> << >>>…)# 1.1 运算符的一览图## 1.2案例演示案例演示算术运算符的使用(Operator.scala)。+, - ,

2018-11-30 19:25:01 2441

原创 &符号的使用说明及实例

val res = -3 & -2原则所有的运算都是以二进制补码进行.二进制的最高位是符号位: 0表示正数,1表示负数3.正数的原码,反码,补码都一样负数的反码=它的原码符号位不变,其它位取反(0->1,1->0)负数的补码=它的反码+16.0的反码,补码都是07.在计算机运算的时候,都是以补码的方式来运算的,但是返回结果时,其实会将补码转成原码-3 &a...

2018-11-30 18:56:50 1078

转载 hadooop篇一-入门(配置及架构了解)

1.hadoop框架1.1 Hadoop是什么1.2 Hadoop发展历史1.3Hadoop三大发行版本Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。1.Apache Hadoop官网地址:http://h...

2018-11-29 17:17:12 1995

原创 java多线程实操

线程原子性问题 package com.smalltiger.juc; import java.util.concurrent.atomic.AtomicInteger; /** * Created by smalltiger on 2018/5/9. * 一、i++的原子性问题:i++的操作实际上分为三个步骤“读-改-写” * ...

2018-11-29 15:21:21 201

原创 Scala学习总结和练习之一

1、在Scala REPL(read->evaluateion->print->loop)中,计算3的平方根,然后再对该值求平方。现在,这个结果与3相差多少?def main(args: Array[String]): Unit = { var a:Int = 3; var b:Double = scala.math.sqrt(a); var c:Double =...

2018-11-29 09:38:46 1237

原创 Scala编程学习之二-变量

2.1变量的介绍2.1.1概念变量相当于内存中一个数据存储空间的表示,你可以把变量看做是一个房间的门牌号,通过门牌号我们可以找到房间,而通过变量名可以访问到变量(值)。2.1.2变量使用的基本步骤1)声明/定义变量 (scala要求变量声明时初始化)2)使用2.2Scala变量使用说明2.2.1变量声明基本语法var | val 变量名 [: 变量类型] = 变量值2.2.2注...

2018-11-28 20:10:34 212

原创 Scala编程学习之一-scala概述

1.1why is Scala语言?1)Spark—新一代内存级大数据计算框架,是大数据的重要内容。2)Spark就是使用Scala编写的。因此为了更好的学习Spark, 需要掌握Scala这门语言。【海量数据的采集,存储,计算分析【mapreduce,Spark】/ [java,python,scala主力]】3)Scala 是 Scalable Language 的简写,是一门多范式(编...

2018-11-28 19:43:01 282 1

原创 启动Oozie报错

去看一下日志如果你在oozie-site.xml或oozie-default.xml配置的是UTC+0800它会识别不了 然后在最新的日志里报:java.lang.RuntimeException: Invalid Oozie timezone, it must be ‘UTC’ or 'GMT(+/-)####时区那里只能设置UTC或GMT(+/-)####希望对你有帮助,打赏一下小哥...

2018-11-16 20:38:11 402

原创 Xshell突然连接不上虚拟机

记住这里是突然,如果之前没配好ip,没关防火墙,没下ssh的去看别的博客如果你跟我一下是突然连接不上本地的虚拟机的话,去windows的服务里打开关于VMware相关的所有服务那些服务不是开机自启的,记得每次手动打开一下,谢谢...

2018-11-15 09:45:38 1768

原创 bin/beeline连接数据库报 Could not open client transport with JDBC Uri: jdbc:hive2

这里其实是hive2没有启动起来。如果你在hive里整合了mysql的话,那么还有一种可能就是mysql没有启动或者你的hive下的lib里没有MySQL驱动的jar包。不要以为你之前里面有就不去看一下,我的就是莫名奇妙的消失了。然后从hive中把mysql驱动复制过去cp mysql-connector-java-5.1.27-bin.jar /opt/module/hive/lib/然后...

2018-11-14 16:59:55 762

原创 hive启动报错 java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf

bin/hiveException in thread “main” java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf这里分享一种可能到hadoop的etc/hadoop目录下去找到hadoop-env.sh 文件for f in HADOOPHOME/contrib/capacity−schedule...

2018-11-14 16:52:56 5346 3

原创 在hive配置snappy压缩后执行查询语句报错的原因

在hive配置snappy运行select count(ename) name from emp;报如下错误org.apache.hadoop.hive.ql.metadata.HiveException: native snappy library not available: this version of libhadoop was built without snappy support...

2018-11-05 20:01:15 1228

原创 linux系统中解压文件:tar: 由于前次错误,将以上次的错误状态退出

这个可能是因为权限不够的原因因为一般只有在root权限下才能移动文件夹到虚拟机所以可以在 tar -zxvf 解压文件 加上sudo或者切换成root用户再解压

2018-11-05 17:05:08 6964

原创 hive shell命令行输入show locks tablename 报错的解决

报错信息为:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. show Locks LockManager not specified这个你应该是在hive-site.xml文件中开启锁机制那么如何开启锁机制呢修改hive-site.xml,配置如下:hive.zook...

2018-11-01 10:50:01 2988

原创 hive向表中插入数据报错和linux中mysql启动报[运行错误]

hive向表中插入数据失败但是导入可以,很可能是hadoop集群中的conf/hadoop/core-side.xml配置好了但是没分发到集群上其它的节点的原因,可以看看集群中其它的机器的core-side.xml文件是否与内容一致hive命令中是删除不了hdfs文件系统中的表的数据的,删除或更新会报:Error while compiling statement: FAILED: Seman...

2018-10-31 19:11:01 917

linux,vmware安装配置文档

linux,vmware安装及配置,包括系统出问题纠正方法等

2018-11-30

elasticsearch框架的安装

包括linux下elasticsearch的安装,和windows下的elasticsearch的安装,及简单使用

2018-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除