自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 python中\t,\n,\n\t三者之间的区别

python中经常看到使用\t,\n,\n\t,那么它们有什么区别之处呢?\t :表示空4个字符,类似于文档中的缩进功能,相当于按一个Tab键。\n :表示换行,相当于按一个 回车键\n\t : 表示换行的同时空4个字符。我们用例子来说明它们的区别。# -*- coding: utf-8 -*-print("\t你好")print("\n你好\n在吗")print("你好\n\t...

2020-04-13 16:41:11 3425

原创 脚本文件实现elasticsearch集群定时删除7天前索引数据

elasticsearch定时删除7天前索引数据的步骤:1.新建sh脚本文件项目中elasticsearch集群有两台服务器,分别为126和127,选择127服务器新建sh脚本文件。es_index_delete.sh脚本文件内容如下:#!/bin/bash#es_index_delete.shLAST_DATA=`date -d "-7 days" "+%Y-%m-%d"`cur...

2019-11-06 16:22:24 1161

原创 logstash利用grok截取字符中指定长度的内容

最近项目用到logstash,要求利用grok截取日志消息中某一指定长度的内容。Logstatsh需要两个必需参数input、output,以及一个可选参数filter。input用于输入数据的设置,output用于输出数据的设置。filter是实现数据过滤的设置。grok是在filter里面实现数据截取。项目有一串协议消息如 7e8900000c040116432693324af001018...

2019-10-29 11:54:47 1635 1

原创 模型评价指标说明和scikit-learn代码实现

目前常用的评价指标有:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线,AUC曲线。1.混淆矩阵True Positive(真正,TP):将正类预测为正类数True Negative(真负,TN):将负类预测为负类数False Positive(假正,FP):将负类预测为正类数→误报 (Type I error)False Neg...

2019-06-27 11:49:50 372

原创 交叉验证(cross validation)原理和方法说明以及scikit-learn代码实现。

交叉验证(cross validation)1.定义:用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(data set)进行分组,一部分做为训练集(training set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。2.作用:针对在训练集上训练...

2019-06-26 11:04:24 2185

转载 转载——5 分钟带你弄懂非监督学习k-means 聚类(通俗易懂)

本文转载,原文为https://blog.csdn.net/huangfei711/article/details/78480078 聚类与分类的区别分类:类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。属于监督学...

2019-06-18 09:59:19 408

原创 支持向量机SVM的原理和常用名称解释,以及利用sklearn-SVC实现简单的支持向量机

支持向量机(SVM)1. 简介支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类(binary classification)的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplan...

2019-06-12 19:46:39 433

原创 java开发——时间类型和时间格式转换

项目开发过程中,有时候需要将时间的形式进行变换,时间的输入和输出不一致的转换,本文用于记录常用到的方法。首先对sdf.format(a),sdf.parse(a)两个类型进行区分.sdf.format(a):将String类型a转换为Date类型,输出结果为Date类型。sdf.parse(a):将Date类型a转换为String类型,输出结果为String类型【时间类型转换】1.将St...

2019-05-27 15:31:30 738

原创 pandas数据分析处理常用知识点整理

一.基本知识有两个主要的数据结构,Series和DataFrame,记住大小写区分。导入库方法:import pandas as pd1.Series类似于一维数组,和numpy的array接近,由一组数据和数据标签组成。数据标签有索引的作用。数据标签是pandas区分于numpy的重要特征。(1) 用列表list创建Seriess=pd.Series([1,2,3,4,])s0 1...

2019-04-10 16:17:28 370

原创 数据分析处理Numpy库方法整理

一.基本知识NumPy的主要对象是同构多维数组。它是一个元素表(通常是数字),都是相同的类型,由正整数元组索引。在NumPy维度中称为轴。导入库方法:import numpy as np对应的属性有:.ndim:返回的是数组的维度,只有一个数。.shape:每个维度中数组的大小,返回的是元组,对n行和m列的矩阵,shape将是(n,m).size:数组的元素总数。这等于元素的乘积sha...

2019-04-02 17:12:26 214

原创 解决报错:Parser must be a string or character stream, not Series

一开始使用df[‘TIME’] = parser.parse(df[‘GPS_TIME’]),出现错误,错误提示为:Parser must be a string or character stream, not Seriesdf[‘GPS_TIME’]中的每个数据虽然是str,但df[‘GPS_TIME’]整体是Series,parse()需要str类型才能进行时间转换,故不能直接用。df...

2019-03-25 19:09:48 1699

原创 pandas中Series索引切片说明

Series是pandas中一个重要的数据结构,Series是一种类似于一维数组的对象,它由一组数据以及一组与之相关的数据标签(即索引)组成。Series索引可以使用索引值也可以使用位置数值两种方法索引。import numpy as npimport pandas as pdobj = pd.Series(np.arange(4.0),index=['a','b','c','d'])...

2019-03-14 15:02:28 1611

原创 python中*args和**kargs的用法和区别

*一.args1.直接赋值python中在参数前面加一个 的参数 ,可以按照位置传值,称为可变位置参数,如args*args:是一个列表,传入的参数会被放进列表里。values = (1,2,3,4,5,6)a ,b , *args = values2.函数定义*args:将实参中按照位置传值,多出来的值都给args,且以元组的方式表示,即实现拆分功能def fun(*args...

2019-03-12 15:21:45 774

原创 利用Python对电商销售数据进行分析

一.数据集介绍此次的数据集来自kaggle的关于在线零售业务的交易数据,该公司主要销售礼品,大部分出售对象是面向批发商。二.数据集字段介绍数据包含541910行,8个字段,字段内容为:InvoiceNo: 订单编号,每笔交易有6个整数,退货订单编号开头有字母’C’。StockCode: 产品编号,由5个整数组成。Description: 产品描述。Quantity: 产品数量,有负号...

2019-03-12 10:40:01 14079 7

原创 java读取文本数据,将数据保存为二维数组。

利用BufferedReader和FileInputStream都可以实现读取文本数据,不同的是BufferedReader适用于读取文本较小的场景,因其会将文件所有行都存入内存中。1.BufferedReader实现读取文本数据,并保存为二维数组。private static double[][] getFile(String pathName) throws Exception { ...

2018-11-30 10:30:14 5061 1

原创 matlab程序打包成jar包,IDEA实现java调用matlab程序

本文将分为三部分展开,有matlab程序打包成jar包,添加jar包到IDEA并调用,遇到的错误解决办法说明。一. matlab程序打包成jar包1.环境说明系统:window7 64位 jdk1.7matlab版本:matlab2016a 64位 jdk1.7注意:必须要保证matlab的位数和jdk版本与系统一致(大版本一致即可,如都是1.7或1.6,后面的数字可以不一样)2.环...

2018-10-15 17:20:34 4901 1

原创 机器学习中的特征工程的处理过程

本文是在别人的文章基础上进行修改,添加。 (一) 特征工程概述1.特征工程的含义 特征工程具体含义:通过一系列的工程活动,将这些信息使用更高效的编码方式(特征)表示。使用特征表示的信息,信息损失较少,原始数据中包含的规律依然保留。编码方式还需要尽量减少原始数据中的不确定因素(白噪声、异常数据、数据缺失…等等)的影响。 2.特征工程的目的 特征工程的目的:如何将原始的数据处理成合格的数据...

2018-09-21 20:21:51 278

原创 《机器学习实战》学习笔记——k-近邻算法(kNN)知识点和Python实现

最近开始学习《利用Python数据分析》和《机器学习实战》,本篇主要对《机器学习实战》中的k-邻近算法的整理和Python程序实现。k-近邻算法kNN(可用于分类也可用于回归)1.理论知识点 含义:采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 工作原理:存在一个样本数据...

2018-08-13 21:20:45 220

原创 Elman神经网络介绍以及Matlab实现

Elman神经网络介绍1.特点 Elman神经网络是一种典型的动态递归神经网络,它是在BP网络基本结构的基础上,在隐含层增加一个承接层,作为一步延时算子,达到记忆的目的,从而使系统具有适应时变特性的能力,增强了网络的全局稳定性,它比前馈型神经网络具有更强的计算能力,还可以用来解决快速寻优问题。 2.结构 Elman神经网络是应用较为广泛的一种典型的反馈型神经网络模型。一般分为四层:输入层...

2018-06-28 19:27:15 31658 22

原创 svn is already locked报错无法更新代码解决方法。

在使用svn时,有时候会遇到:Error:svn: E155004: Run ‘svn cleanup’ to remove locks (type ‘svn help cleanup’ for details) svn: E155004: Working copy ‘E:\Projects\yx-vn-bdp’ locked. svn: E155004: ‘E:\Projects\yx-vn...

2018-03-05 09:58:14 3147

原创 基于Java使用HashMap实现数据的缓存

1.最近任务需要将数据进行不断比较并输出数据,数据是多条,利用HashMap和List结合实现数据缓存。代码如下:public class MapTest { private static HashMap<String,List<String>> mapSave = new HashMap<>(); public static void ...

2018-03-05 09:44:12 2288

原创 java中将日期转换为毫秒

已知在数据库中保存的时间是String类型,现在要求出两个时间间隔,故通过求出时间的毫秒数值,然后相减,即得到两个时间的间隔。1.日期转换为毫秒 思路:首先需要将String型的时间转换为以日期型的时间,然后利用getTime()得到时间的毫秒数值。public class Test { public static void main(String[] args) { St

2018-01-18 17:32:48 5003

原创 基于Java使用HashMap<String,List<String>>实现数据的缓存

1.最近任务需要将数据进行不断比较并输出数据,数据是多条,利用HashMap和List结合实现数据缓存。代码如下: public class MapTest {public class MapTest { private static HashMapList> mapSave = new HashMap<>(); public static void main(Str

2018-01-11 20:58:11 5677

原创 基于Java实现Spark统计身高的实例

例子仍然引用:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/a. 案例描述本案例假设我们需要对某个省的人口 (10万) 性别还有身高进行统计,需要计算出男女人数,男性中的最高和最低身高,以及女性中的最高和最低身高。本案例中用到的源文件有以下格式, 三列分别是 ID,性别,身高 (cm),格式如下: b.

2017-11-17 19:24:11 5465 2

原创 基于Java的spark年龄统计实例编程实现

本文的实例引用至 https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/网上很多基于scala实现spark实例编程,由于项目需要用到java,为此利用java来实现spark的学习并应用到实例中来。a. 案例描述该案例中,我们将假设我们需要统计一个 10 万人口的所有人的平均年龄,当然如果您想测试 Spark

2017-11-14 21:08:44 2084 1

原创 基于Java的Spark WordCount编程实现

刚开始接触Spark编程,以WordCount作为入门编程实例,WordCount是用于统计单词出现的次数。本文参考http://blog.csdn.net/gongpulin/article/details/51534754,不同的是本文以Java语言实现实例的编程实现。a、案例分析 对于词频数统计,用 Spark 提供的算子来实现,我们首先需要将文本文件中的每一行转化成一个个的单词, 其次是对

2017-11-13 19:24:55 692

原创 Spark使用Java读取mysql数据和保存数据到mysql

基于java应用需要利用Spark读取mysql数据进行数据分析,然后将分析结果保存到mysql中。

2017-11-07 20:17:39 5281 10

原创 java.lang.IllegalArgumentException:System memory 259522560 must be at least 4.718592E8

在IDEA运行Spark程序对数据求和时,出现问题:Exception in thread “main” java.lang.IllegalArgumentException: System memory 259522560 must be at least 4.718592E8. Please use a larger heap size. 解决办法:点击Run——>Edit Configura

2017-09-30 14:33:03 915

原创 IDEA运行Spark出现UnsupportedClassVersionError: scala/tools/:Unsupported major.minor version 52.0

在IDEA环境运行Spark实例时,出现UnsupportedClassVersionError: scala/tools/:Unsupported major.minor version 52.0其解决方法是:**检查jdk版本,修改本地环境变量jdk版本为1.8,IDEA选择JDK版本为1.8,**Scala版本要与Spark版本一致,建议使用scala 2.10.X 版本,问题比较少。sc

2017-09-30 14:10:38 699

原创 灰色系统预测模型GM(1,1),GM(1,n)及Matlab实现

1.灰色系统的定义: 灰色系统指既含有已知信息又含有未知信息的系统。 2.灰色预测模型的定义: 对灰色系统进行预测的模型。 灰色模型(Grey Model,简称GM模型)一般表达方式为GM(n,x)模型,其含义是:用n阶微分方程对x个变量建立模型。 3.灰色预测模型的目的: 通过把分散在时间轴上的离散数据看成一组连续变化的序列,采用累加和累减的方式,将灰色系统中的未知因素弱化,强化已知因

2017-08-24 19:10:59 61656 46

kaggle在线零售业务数据,用于数据分析处理。

kaggle的关于在线零售业务的交易数据,用于数据分析和处理。 数据包含541910行,8个字段,字段内容为: InvoiceNo: 订单编号,每笔交易有6个整数,退货订单编号开头有字母’C’。 StockCode: 产品编号,由5个整数组成。 Description: 产品描述。 Quantity: 产品数量,有负号的表示退货 InvoiceDate: 订单日期和时间。 UnitPrice: 单价(英镑),单位产品的价格。 CustomerID:客户编号,每个客户编号由5位数字组成。 Country: 国家的名称,每个客户所在国家/地区的名称。

2019-05-27

基于matlab灰色模型GM(1,1)预测数据

基于matlab灰色模型GM(1,1)预测数据,通过对已知数据进行处理,预测出新的数据,然后对比其结果,求出误差,已经对结果进行后验差检验,从而来判断预测准确性。

2017-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除