自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 查询mysql以xxx开头的表

查询mysql以xxx开头的表

2022-06-22 18:16:23 1144

原创 如何清理c盘

c盘里可以删除的文件:1.Windows中Temp文件夹位置:C:\Windows\TempTemp文件夹中存储的全部是系统的临时文件,可以放心删除,打开Temp文件夹后,Ctrl+A全选其中的内容,然后直接按Delete键删除即可。2.Windows中Prefetch文件夹位置:C:\Windows\PrefetchPrefetch这个文件夹,是用来存放系统访问文件的阅读信息,里面的内容没有太大用处,也是可以放心删除的,直接全选然后删除里面的全部文件/文件夹即可。3.Windows\Syst

2022-05-18 13:24:04 197

原创 pyspark读写orc格式数据

读orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')写orc_df.write.orc(os.path.join(tempfile.mkdtemp(), 'data'))

2019-07-25 15:11:04 2692

原创 修改spark的日志不要打印到屏幕,输出到文件

复制spark日志配置文件模板:cd confcp log4j.properties.template log4j.properties修改log4j.properties文件:log4j.rootCategory=INFO, FILElog4j.appender.FILE=org.apache.log4j.DailyRollingFileAppender log4j.appen...

2019-07-24 15:47:50 1725

原创 python操作S3(aws)

import boto3boto3_session = boto3.Session(aws_access_key_id=xxx, aws_secret_access_key=xxx, region_name='cn-north-1')# print(boto3_sessio...

2019-07-18 15:09:32 1698

原创 docker: Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon run

Centos7.x 执行 docker 时报如下错误Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon run配置 DOCKER_HOSTsudo vim /etc/profile.d/docker.sh内容:export DOCKER_HOST=tcp://l...

2019-04-16 09:55:01 303

原创 信用风险计量模型汇总

信用风险计量模型的基本技术路线是,利用借款者的特征指标和宏观经济变量,收集这些特征指标和宏观变量的历史数据,并将其应用于预测违约借款人与履约借款人。预测模型旨在评估未知借款者将来是否还款的信用价值,将潜在借款者的特征值输入模型,从模型中输出信用价值评估,从而可对潜在借款人进行信用评估。一般的评级方法可以分为专家经验判断法、参数模型和非参数模型。所谓的专家经验判断,就是相关专家根据主观经验...

2018-10-18 10:03:39 18887

原创 spark实现随机森林

# 1. 导入需要的包:import pysparkfrom pyspark.sql import SQLContextfrom pyspark import SparkContextfrom pyspark.sql import Row,functionsfrom pyspark.mllib.linalg import Vector,Vectorsfrom pyspark.ml.ev...

2018-10-12 11:31:52 1101 2

原创 spark实现决策树

我们以iris数据集(iris)为例进行分析。iris以鸢尾花的特征作为数据来源,数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性,是在数据挖掘、数据分类中非常常用的测试集、训练集。决策树可以用于分类和回归,接下来我们将在代码中分别进行介绍。导入需要的包:from pyspark.ml.linalg import Vector,Vectorsfrom pyspar...

2018-10-11 09:35:16 1796

原创 spark-逻辑回归

导入需要的包:from pyspark.sql import Row,functionsfrom pyspark.ml.linalg import Vector,Vectorsfrom pyspark.ml.evaluation import MulticlassClassificationEvaluatorfrom pyspark.ml import Pipelinefrom py...

2018-09-30 17:17:38 1155

原创 集群linux下安装Anaconda和jupyter,设置远程访问

首先是要 安装 Anaconda 。默认情况下,安装好 Anaconda 后打开 jupyter notebook, 访问本地localhost:8888 即可。但是如果要访问另一台机器,比如远端服务器上的 notebook, 即默认是不支持 172.104.105.119:8888 这样的访问,需要额外配置。设置 jupyter notebook 可远程访问的官方指南在这里,在远端服务器上...

2018-09-27 13:45:47 2779

原创 python中的GC机制

GC作为现代编程语言的自动内存管理机制,专注于两件事:1. 找到内存中无用的垃圾资源 2. 清除这些垃圾并把内存让出来给其他对象使用。GC彻底把程序员从资源管理的重担中解放出来,让他们有更多的时间放在业务逻辑上。但这并不意味着码农就可以不去了解GC,毕竟多了解GC知识还是有利于我们写出更健壮的代码。引用计数 Python语言默认采用的垃圾收集机制是『引用计数法 Reference Count...

2018-08-28 20:00:56 1852

原创 游程编码

游程编码是一种无损数据压缩编码。通过记录字母连续重复次数的方式,节约存储空间。举例‘BBCCCCABDDD’,可编码为‘2B4CAB3D’(如果某个字符进出现一次则要省略前面的数字1) 输入:一个仅包含字母的字符串输出:一个编码后的字符串def encode(s): f = s[0] count=1 tmp='' for i in range(1,len...

2018-08-24 16:09:43 3303

原创 Python 嵌套列表展开

问题1:对于列表形如 list_1 = [[1, 2], [3, 4, 5], [6, 7], [8], [9]] 转化成列表 list_2 = [1, 2, 3, 4, 5, 6, 7, 8, 9] 的问题。Python实现:# 普通方法list_1 = [[1, 2], [3, 4, 5], [6, 7], [8], [9]]list_2 = []for _ in list_...

2018-08-24 15:37:12 13407 3

原创 数据库mysql入门及基本使用

MySQL数据库的介绍发展史: 1996年,MySQL 1.0 2008年 Sun公司收购了MySQL 2009年4月 Oracle收购Sun公司名词解释 数据库:保存有组织的数据的容器(通常是一个文件)。 表 :某种特定类型数据的结构清单。数据库中的表都有一个名字,用来标识自己,此名字是唯一的。 列 :表中的一个字段。所有表都是由一个或多个列组成的。数据库中的每个...

2018-08-21 21:17:41 145

原创 HTTP常见响应状态码及解释、常用请求头及解释

HTTP常见响应状态码及解释2XX Success(成功状态码) 200 表示从客户端发来的请求在服务器端被正常处理204 该状态码表示服务器接收的请求已成功处理,但在返回的响应报文中不含实体的主体部分206 该状态码表示客户端进行了范围请求,而服务器成功执行了这部分的GET请求3XX Redirection(重定向状态码) 301 永久性重定向302 临时性...

2018-08-21 14:30:43 3454

原创 单例模式

单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问,从而方便对实例个数的控制并节约系统资源。如果希望在系统中某个类的对象只能存在一个,单例模式是最好的解决方案。显然单例模式的要点有三个:一是某个类只能有一个实例;二是它必须自行创建这个实例;三是它必须自行向整个系统提供这个实例。从具体实...

2018-08-20 19:38:46 114

原创 tcp三次握手和四次挥手

请简单说一下三次握手和四次挥手?三次握手过程: 1 首先客户端向服务端发送一个带有 SYN 标志,以及随机生成的序号 100(0 字节)的报文 2 服务端收到报文后返回一个报文(SYN200(0 字节),ACk1001(字节+1))给客户端 3 客户端再次发送带有 ACk 标志 201(字节+)序号的报文给服务端 至此三次握手过程结束,客户端开始向服务端发送数据。 1 客户端向服务...

2018-08-20 17:35:04 117

原创 多线程、多进程、协程、并行、并发

1. 谈谈你对多进程,多线程,以及协程的理解,项目是否用?这个问题被问的概率相当之大,其实多线程,多进程,在实际开发中用到的很少,除非是那些对项目性能要求特别高的,有的开发工作几年了,也确实没用过,你可以这么回答,给他扯扯什么是进程,线程(cpython 中是伪多线程)的概念就行,实在不行你就说你之前写过下载文件时,用过多线程技术,或者业余时间用过多线程写爬虫,提升效率。进程:一个运行的程...

2018-08-20 16:41:35 1360

原创 容器云技术docker

容器云技术docker是什么? Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。 容器是完全使用沙箱机制,相互之间不会有任何接口(类似 iPhone 的 app),更重要的是容器性能开销极低。使用场景和工作原理?Docker的应用场景 Web 应用的自动化打包和发布。 自动化测试和持...

2018-08-20 11:49:11 1382

原创 linux发行版、系统设置

linuxlinux下的程序往往使你更加有效率,因为他们可以更高效的使用电脑的资源不同的Linux发行版之间的主要区别:1、安装方法不一样,有的复杂,有的简单。2、安装应用程序的方式不一样。3、预装的应用程序不一样。linux发行版1、RedHat:性能稳定,老牌的linux发行版。收费的是RedHat Enterprise Linux(RHEL。redhat企业版)。...

2018-08-17 14:54:48 181

原创 linux常用命令

linux常用命令 ls:(list) ls会列举出当前工作目录的内容(文件或文件夹) ls -l :可以查看文件的属性,大小等详细信息 ls -a :可以看到全部的文件(包括隐藏文件) ls -d :查看目录属性信息,将目录像文件一样显示,而不是显示其下的文件 ls -m :用“,”号区隔每个文件和目录的名称 ls -t :最近...

2018-08-17 14:50:26 129

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除