自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 收藏
  • 关注

转载 maven之环境配置

下载网址:http://maven.apache.org/download.cgi下载最新版本:例:apache-maven-3.6.0-bin.zip解压将下载的zip包解压到指定文件夹中环境变量配置setx M2_HOME F:\maven\apache-maven-3.6.0setx PATH "%M2_HOME%\bin;%PATH%...

2019-03-22 19:12:00 107

转载 Scala之访问修饰符

Scala 访问修饰符基本和Java的一样,分别有:private,protected,public。如果没有指定访问修饰符,默认情况下,Scala 对象的访问级别都是 public。Scala 中的 private 限定符,比 Java 更严格,在嵌套类情况下,外层类甚至不能访问被嵌套类的私有成员。私有(Private)成员用 private 关键字修饰,带有此标记的成...

2019-02-15 11:09:00 126

转载 spark之开发环境配置(windows)

特注:windows下开发spark不需要在本地安装hadoop,但是需要winutils.exe、hadoop.dll等文件,前提是你已经安装了eclipse、maven、jdk等软件。spark支持jdk版本建议是1.8及以上,如果开发spark建议将jdk编译版本设置为1.8。Spark下载网址:http://spark.apache.org/downloads.htm...

2019-02-13 15:54:00 168

转载 java之环境配置

Java安装(jdk和jre)下载1、网址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2、选择Accept License Agreement3、按照版本选择需要的安装包,点击下载安装1、打开下载的安装包这里需要了解下,...

2019-02-13 14:45:00 97

转载 Scala之类和对象

类是对象的蓝图(或叫模板)。定义一个类后,可以使用关键字new来创建一个类的对象。 通过对象可以使用定义的类的所有功能。下面的图通过一个包含成员变量(name和rollNo)和成员方法(setName()和setRollNo())的Student类的例子来演示类和对象。类是一个模板的东西,而对象是真实存在的。 在下图中,Student是一个类,而具体学生:Harini,John...

2019-01-29 14:19:00 166

转载 Scala之变量

变量是保存存储值的内存位置的名称。这意味着当创建变量时,可以在内存中保留一些空间。根据变量的数据类型,编译器分配内存并决定可以存储在预留内存中的内容。因此,通过为变量分配不同的数据类型,可以在这些变量中存储整数,小数或字符。1、变量声明使用关键字var声明,是一个可以改变值的变量,这称为可变变量。var myVar : String = "Foo"使用关键字val声明...

2019-01-28 18:28:00 171

转载 Scala之数据类型

1、数据类型Scala与Java具有相同的数据类型,具有相同的内存占用和精度。以下是提供Scala中可用的所有数据类型的详细信息的表格:序号数据类型说明1Byte8位有符号值,范围从-128至1272Short16位有符号值,范围从-32768至327673Int32位有符号值,范围从-2147483...

2019-01-28 17:57:00 86

转载 Scala之基础语法

如果您熟悉Java语言语法和编程,那么学习Scala将会很容易。Scala和Java之间最大的句法差异在于行结束字符的分号(;) 是可选的。一、执行Scala程序交互模式脚本模式1、交互模式打开命令提示符进入到目录:D:\software\scala-2.12.3\bin执行如下命令运行程序 -D:\software\scala-2.12.3\bin&g...

2019-01-28 17:45:00 81

转载 Scala之环境配置

从http://www.scala-lang.org/downloads下载Scala安装包或者ide安装包。有两种安装方式:1、sbt安装2、ide安装1、基于命令行安装Scala双击下载好的“sbt-1.0.0.msi”执行安装第2步:接受安装协议 -第3步:选择安装位置(D:\Program Files (x86)\sbt\) -第...

2019-01-28 17:21:00 116

转载 大数据

大数据4V1.数据量大(volume)2.数据类型繁多(variety)3.处理速度快(velocity)4.价值密度低(value)信息科技为大数据时代提供技术支撑1.存储设备容量不断增加2.CPU处理能力大幅提升3.网络带宽不断增加大数据对社会的影响1.大数据决策成为一种新的决策方式2.大数据应用促进信息技术与各行业的深度融合3.大...

2019-01-21 16:06:00 232

转载 python爬虫之urllib

urllib提供了一系列用于操作URL的功能。1.urllib.request请求模块urlopen(url,url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False,context=None):直接请求、指定数据、指定响应时间,未响应可以抛出异常urlopen一般常用的有三个参数u...

2019-01-15 15:16:00 56

转载 python爬虫之BeautifulSoup

BeautifulSoup一个灵活又方便的网页解析库,处理高效,支持多种解析器。利用它就不用编写正则表达式也能方便的实现网页信息的抓取。Beautiful Soup支持多种解析器,Python有默认的解析器,推荐安装lxml 解析器,效率高,速度快。用法from bs4 import BeautifulSouphtml = '''<html>...

2018-12-26 15:01:00 78

转载 python爬虫之requests

requestsrequests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多用法各种请求方式,最好加上头信息和异常判断import requestsrequests.get('http://httpbin.org/get')requests.post('http://httpbin.org/post')requests.pu...

2018-12-26 14:27:00 80

转载 常见又陌生的名词

P2P、P2C 、O2O 、B2C、B2B、 C2C什么是P2PP2P借贷是一种将非常小额度的资金聚集起来借贷给有资金需求人群的一种民间小额借贷模式。P2P是“Peer-to-Peer”的简写,个人对个人的意思,P2P借贷指个人通过第三方平台(P2P公司)在收取一定服务费用的前提下向其他个人提供小额借贷的金融模式。P2P模式有两种模式,第一种是纯线上模式,是纯粹的P2P,在这...

2018-12-11 14:44:00 219

转载 hadoop之mapreduce

Mapreduce的过程整体上分为四个阶段:InputFormat 、MapTask 、ReduceTask 、OutPutFormat,当然中间还有shuffle阶段读取(InputFormat):我们通过在runner类中用job.setInputPaths或者是addInputPath添加输入文件或者是目录(这两者是有区别的)默认是FileInputFor...

2018-12-06 17:23:00 76

转载 oracle之存储过程

创建create or replace procedure procedure_name(v1 varchar2,v2 in varchar2,v3 out number) as v4 number;v_Sql long;beginv4:=201801;v_slq:='select * from dual where month_id=''...

2018-12-06 15:57:00 96

转载 Hive之存储格式

常用的存储格式1.textfileHive数据表的默认格式,数据不做压缩,磁盘开销大,数据解析开销大。存储方式:行存储。可以使用Gzip压缩算法,但压缩后的文件不支持split。在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍。2.RCFile存储方式:数据按行分块,每块按列存储。结合了行存储和列存储的...

2018-12-05 16:58:00 255

转载 Hive之数据类型

基础数据类型与java数据类型一致整型TINYINT — 微整型,只占用1个字节,只能存储0-255的整数。SMALLINT– 小整型,占用2个字节,存储范围–32768 到 32767。INT– 整型,占用4个字节,存储范围-2147483648到2147483647。BIGINT– 长整型,占用8个字节,存储范围-2^63到2^63-1。Float和...

2018-12-05 16:25:00 201

转载 oracle之语句调优

1.SQL语句大写因为oracle总是先解析SQL语句,把小写的字母转换成大写的再执行。2.表别名多表join时,尽量使用表别名,同时把表别名前缀于每一列上,减少解析的时间及由列歧义引起的语法错误3.from从右到左解析表名from子句中写在最后的表(基础表也称为驱动表,driving table)将被最先处理,尽量记录条数最少的表作为基础表放最后,如维表4.wh...

2018-12-05 16:04:00 108

转载 Hive之语句调优

1.数据过滤尽量先过滤数据,减少每个阶段的数据量,然后再进行join2.分区要合理使用分区,hive分区数据文件是放在不同目录下的3.执行顺序hive总是按照从左到右的顺序执行语句4.job任务数hive会对每次join启动一个mapreduce任务当对3个或者更多个表进行join连接时,如果每个on都使用相同的连接键的话,那么只会产生一个mapreduc...

2018-12-05 15:29:00 137

转载 Hive之常用参数

#reduce的输出是否压缩set mapred.output.compress=true;#控制是否将hive中最后的结果进行压缩的。如果将该参数设置为true的时候,文件类型一般会选择SequenceFile。set hive.exec.compress.output=true;#决定了使用哪种文件格式,默认textfileSET hive.defau...

2018-12-05 15:11:00 149

转载 Hive之数据倾斜

一、数据倾斜的原因数据倾斜就是由于数据分布不均匀,数据大量集中到一点上,造成数据热点。在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分...

2018-09-12 15:56:00 73

转载 算法之决策树分类

决策树(Decision Tree)是一种被广泛使用的分类算法,在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。在实际应用中,对于探测式的知识发现,决策树更加适用。一、算法定义决策树是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分...

2018-09-10 16:29:00 434

转载 python之面向对象

一、什么是面向对象面向对象(Object - Oriented):按人们认识客观世界的系统思维方式,采用基于对象(实体)的概念 建立模型,模拟客观世界分析、设计、实现软件的办法。通过面向对象的理念使计算机软件系统能与现实世界中的系统一一对应。(CSND)面向对象与面向过程的区别:面向过程就是分析出解决问题所需要的步骤,然后用函数把这些步骤一步一步实现,使用的时候一个一个依...

2018-09-05 09:49:00 46

转载 python之常用函数

1.Lambda:匿名函数Lambda:匿名函数,通常是在需要一个函数,但是又不想费神去命名一个函数的场合下使用。def g(x): return x+1等价于g = lambda x:x+12.map函数map():map(function_name,list)->listmap()将接受 一个函数与列表为参数Pyt...

2018-09-05 09:08:00 164

转载 python数据分析之matplotlib库

Matplotlib是一个Python 绘图库,它可以在各种平台上以各种硬拷贝格式和交互式环境生成出具有出版品质的图形。Matplotlib试图让简单的事情变得更简单,让无法实现的事情变得可能实现。 只需几行代码即可生成绘图,直方图,功率谱,条形图,错误图,散点图等。Matplotlib可用于Python脚本,Python和IPython shell,Jupyter笔记本,Web...

2018-09-04 16:56:00 118

转载 算法之逻辑回归

logistic回归,是一种广义的线性回归分析模型,logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用。一、算法定义假设在多个独立自变量????1,????2,… 作用下,记y取1的概率是p=P(y=1|X),取0的概率则为1-p取1和取0的概率之比为p/(1-p),称为事件的优势比(odds),对odds取自然对数即得logistic变换logit( p...

2018-09-03 18:11:00 190

转载 对数

一、对数定义如果a的x次方等于N(a>0,且a不等于1),那么数x叫做以a为底N的对数(logarithm),记作x=logaN。其中,a叫做对数的底数,N叫做真数。特别地,我们称以10为底的对数叫做常用对数(common logarithm),并记为lg。称以无理数e(e=2.71828...)为底的对数称为自然对数(natural logarithm),并记为ln。...

2018-09-03 17:23:00 951

转载 python数据分析之简单线性回归分析

使用sklearn库的linear_model.LinearRegression(),可以非常简单的进行线性回归分析以下为代码: 1 # 导入sklearn库下的linear_model类 2 from sklearn import linear_model 3 # 导入pandas库,别名为pd 4 import pandas as pd 5 6 fi...

2018-08-23 14:27:00 321

转载 python数据分析之numpy库

一、numpy概述numpy(Numerical Python)提供了python对多维数组对象的支持:ndarray,具有矢量运算能力,快速、节省空间。numpy支持高级大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。基本功能:快速高效的多维数组对象ndarray用于对数组执行元素级计算以及直接对数组执行数学运算的函数用于读写硬盘上基于数组的数...

2018-08-23 14:21:00 172

转载 python数据分析之pandas库

一、pandas概述pandas :pannel data analysis(面板数据分析)。pandas是基于numpy构建的,为时间序列分析提供了很好的支持。pandas中有两个主要的数据结构,一个是Series,另一个是DataFrame。二、数据结构1.SeriesSeries 类似于一维数组与字典(map)数据结构的结合。它由一组数据和一组与数据相对应的数据标签...

2018-08-23 10:16:00 306

转载 pythonGUI之wxpython控件总结

一、框架1、框架 wx.Framewx.Frame(parent, id=-1, title="", pos=wx.DefaultPosition, size=wx.DefaultSize, style=wx.DEFAULT_FRAME_STYLE, name="frame")框架的形状和尺寸标记wx.FRAME_NO_TASKBAR:一个完全标准的框...

2018-07-03 14:33:00 772

转载 pythonGUI之GUI界面

近来为了帮助部门刚入职的实习生,同时也为了减少部分不必要重复工作量,使用python的自带模块tkinter和第三方库wxpython做了一个简单的工作常用固化软件。简单说说两者的区别自带模块tkinter:如果是初学者,该模块可帮你快速掌握GUI界面布局,适合做一些简单易操作的界面,但是该模块自定义布局较差,而且做出来外观极其不美观,如果要是想做一个好点的界面软件,建议使用...

2018-06-29 17:27:00 156

转载 python之打包

安装PyInstallerpip install PyInstaller打开cmd窗口,把路径切换到文件所在路径(文件随便放在哪里都行)打开命令提示行,输入以下内容(最后的是文件名):pyinstaller -F -w -i tubiao.ico myfile.py输入参数的含义•-F 表示生成单个可执行文件•-w 表示去掉控制台窗口,这在GUI界面时非常有用。不过如...

2018-06-26 15:40:00 42

转载 数据库

MongoDB数据库非关系型数据库,不需要关心表的结构,直接将字典动态插入,方便数据存储。安装下载网址:https://www.mongodb.com/直接下一步安装启动在安装目录下面建立一个data文件夹,data下面建立一个db文件夹存放数据,一个log文件夹存放日志注意:以下cmd操作都必须以管理员身份运行1.在cmd下运行:mong...

2018-05-30 10:47:00 101

转载 python之安装与配置

一、python安装目前主流python版本:2.7、3.5、3.6(目前版本已更新到3.7)下载地址:https://www.python.org/downloads/直接点击安装,下一步即可。注:anacondaanaconda是一个包管理器和环境管理器,可以管理python环境和三方库的安装,卸载,附带了conda、python和150多个科学...

2018-05-29 14:25:00 636

转载 python爬虫之基础内容

请求Request:请求请求方式:主要有GET和POST两种类型,另外还有HEAD、PUT、DELETE、OPTIONS等请求URL:资源定位符请求头:请求时的头部信息,如User-Agert、Host、Cookies等信息请求体:请求的额外携带的数据,如表单提交时的表单数据响应response:响应响应状态:有多种响应状态,如200代表成功、301...

2018-05-29 11:54:00 89

转载 python之内置方法

abs():取绝对值all():可迭代对象里面所有元素均为真返回真,否则返回假any():可迭代对象里面有元素为真返回真,否则返回假ascii():返回一个对象的字符串形式bin():数字转二进制bool():判断真假bytearray():返回值为字节对象,对象可修改bytes():返回值为字节对象,对象不可修改callable():判断对象可不可以调用...

2018-05-17 17:47:00 50

转载 python之迭代器

可迭代对象我们已经知道,可以直接作用于for循环的数据类型有以下几种:一类是集合数据类型,如list、tuple、dict、set、str等;一类是generator,包括生成器和带yield的generator function。这些可以直接作用于for循环的对象统称为可迭代对象:Iterable。可以使用isinstance()判断一个对象是否是Iterable对...

2018-05-17 14:41:00 35

转载 python之生成器

生成器:generator只有在调用的时候才会生成相应的数据。只记录当前位置只有一个next()方法列表生成式先了解一下列表生成式,如果生成一个列表[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]1 a = []2 for i in range(10):3 a.append(i*2)4 5 print(a)...

2018-05-17 14:23:00 49

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除