依旧那么挨揍-CSDN博客

原创 EXCEL根据字段分隔文件.py

很多朋友在处理EXCEL的时候会遇到一个文件根据某个字段分割成不同文件的需求，这里分享一下自己写的python小工具，可以根据字段分组成不同的EXCEL文件；使用的时候把代码内容里面的‘ORG_CD’ 改成你需要分组的列名即可。运行代码选择EXCEL的位置自动分出文件import pandas as pdimport tkinter as tkimport tkinter.filedialogroot = tk.Tk()root.wm_attributes('-topmost'.

2021-01-13 10:28:11 203

原创 DB2查看事务日志使用空间

在日常DB2的维护中，transaction log full是比较常见的问题，日志空间使用情况也是我们比较重视的问题，那么如何查看日志空间使用情况呢？其实昨天在提到归档设置，我们知道DB2 在DATABASE级别有几个参数，如下决定了事物日志的使用空间大小Log file size (4KB) (LOGFILSIZ) = 60000Number...

2019-07-07 09:34:51 8106

原创 tensorflow 常用方法及参数解释

tf.nn.conv2d：tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, name=None)input：输入图像，[图片数量, 图片高度, 图片宽度, 图像通道数]，一个4维的tensorfilter：卷积核大小，[卷积核的高度，卷积核的宽度，图像通道数，卷积核个数]，通道数应该与input的通...

2019-03-05 09:19:50 794

转载 C++的cout高阶格式化操作

一、综述cout是STL库提供的一个iostream实例，拥有ios_base基类的全部函数和成员数据。进行格式化操作可以直接利用setf/unsetf函数和flags函数。cout维护一个当前的格式状态，setf/unsetf函数是在当前的格式状态上追加或删除指定的格式，而flags则是将当前格式状态全部替换为指定的格式。cout为这个函数提供了如下参数（可选格式）：ios::dec ...

2019-02-27 14:07:03 345

原创模拟退火算法

模拟退火算法一,基本概念模拟退火算法（Simulated Annealing，SA）是一种模拟固体降温过程的最优化算法。其模拟的过程是首先将固体加温至某一温度，固体内部的粒子随温度上升慢慢变为无序的状态，内能增大，然后让其慢慢冷却，温度下降时，内部的粒子慢慢趋于有序，达到一种平衡态，最后达到常温时成为基态，此时内能减为最小，算法模拟这样一个过程期望能达到最优化的目的。二,算法原理模拟退...

2019-02-14 16:27:23 2155

翻译 gcForest分布式深度森林及其在套现欺诈自动检测中的应用

分布式深度森林及其在套现欺诈自动检测中的应用摘要互联网企业每天面对处理大规模机器学习应用的请求,需要一个能够处理超大数据任务的分布式系统.深度森林是最近提出的一个利用树作为组件深度学习框架,在各种领域取得不错的结果.然而并没有在超大规模数据任务上测试.在这项工作中,我们基于我们的参数服务器系统和人工智能平台,我们开发了分布式版本的具有易于使用的GUI的森林,就我们所知,这是第一个分布式深度...

2019-02-14 16:04:20 1432 3

转载常用的特征工程

像一个优秀的工程师一样使用机器学习，而不要像一个机器学习专家一样使用机器学习方法。 ---google 当在做数据挖掘和数据分析时，数据是所有问题的基础，并且会影响整个工程的流程。相比一些复杂的算法，如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。一、什么是特征工程简单的说，特征工程是能够将数据像艺术一样展现的技术。为什么这么说呢？因...

2019-02-13 11:21:00 266

原创 mGBDT论文研究

这篇文章是看了冯霁博士的论文总结,一部分是个人看法,如果错误欢迎指正简介在过去的十年中，深度神经网络的发展在机器学习领域取得了显著的进步。通过构建层次结构或 “深度” 结构，该模型能够从监督和无监督设置的原始数据中学习良好的表示，这被认为是其关键成分。成功的应用领域包括计算机视觉、语音识别、自然语言处理等.目前，几乎所有的深度神经网络都是利用随机梯度下降的反向传播作为训练过程中对训练...

2019-02-02 16:29:41 1386 1

原创动态推荐系统关键技术研究(一)

本文是项亮老师的博士论文总结原文链接第一章引言1.1 背景与意义用户从大量信息中找到自己感兴趣的信息是一件很困难的事情,生产商如何让自己生成的信息脱颖而出,受到用户欢迎也是一件困难的事情,因此,为了解决这一矛盾开发了推荐系统. 推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它有兴趣的用户面前,从而实现信息消费者和信息生产者的...

2019-02-01 13:44:34 4009

原创 iForest（Isolation Forest）孤立森林异常检测

异常检测 (anomaly detection)或者又被称为“离群点检测” (outlier detection)，是机器学习研究领域中跟现实紧密联系、有广泛应用需求的一类问题。但是，什么是异常，并没有标准答案，通常因具体应用场景而异。如果要给一个比较通用的定义，很多文献通常会引用 Hawkins 在文章开头那段话。很多后来者的说法，跟这个定义大同小异。这些定义虽然笼统，但其实暗含了认定“异常...

2019-01-23 17:49:52 3359

原创利用pyspark.ml训练lightgbm模型的流程

在spark上训练模型的优势:(1)机器学习算法一般都有很多个步骤迭代计算的过程，机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止，迭代时如果使用一般的Hadoop分布式计算框架，每次计算都要读 / 写磁盘以及任务的启动等工作，这回导致非常大的 I/O 和 CPU 消耗。而 Spark 基于内存的计算模型天生就擅长迭代计算，多个步骤计算直接在内存中完成.(2)从通信的角度...

2018-12-27 16:42:58 14541 22

原创在Windows 10上安装TensorFlow并支持GPU的最佳方式（无需安装CUDA）

找了很久才找到这个方法,亲测可用,之前装完cuda和安装cudnn后还是报错根据文章做的成功搞定,我这里把步骤简单下载安装anaconda下载网址:https://www.anaconda.com/download/下载指定得exe文件后运行:安装程序现在应该正在运行。您将被要求接受许可协议...... “选择安装类型”我建议您选择“Just Me”，因为这是您个人开发环境...

2018-11-17 14:33:48 4824

原创 TXT文件按行去重的python脚本

list01 = []for i in open('test.txt'): if i in list01: continue list01.append(i)with open('test01.txt', 'w') as handle: handle.writelines(list01)# test.txt 源文件# test01.txt 输出...

2018-11-07 10:59:09 4311

转载 Neo4j 入门教程 - 使用 Cypher 导入来自 CSV 文件的数据

你可以将 CSV 文件中的数据导入到 Neo4j 数据库中，为此我们来学习下 Cypher 中的 LOAD CSV 语句。将 CSV 文件导入到 Neo4j 的能力，可以实现从其他类型的数据库来导入数据（比如关系型数据库）。在 Neo4j 中，你可以通过本地或远端 URL 来加载 CSV 文件。要访问本地（在数据库服务器上）文件，使用 file:/// 路径。除此之外，可以使用任何...

2018-09-14 13:39:54 4481

原创 Ubuntu中Docker的安装与使用

1. 在Ubuntu中安装Docker更新ubuntu的apt源索引sudo apt-get update安装包允许apt通过HTTPS使用仓库sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ software-properties-common添加...

2018-08-16 14:28:31 304

原创 celery使用的一些小坑和技巧

纯粹是记录一下自己在刚开始使用的时候遇到的一些坑，以及自己是怎样通过配合redis来解决问题的。文章分为三个部分，一是怎样跑起来，并且怎样监控相关的队列和任务；二是遇到的几个坑；三是给一些自己配合redis使用的代码示例。一.celery使用：　　Ⅰ.把任务中间件服务器跑起来，rabbitmq-server　　　　跑起来以后，就能在浏览器(http://localhost:15672/#...

2018-08-11 21:07:40 2146

原创正则表达式的四大金刚和两大护法

四大金刚 match search findall finditer import restr = 'abc123'# match 只从开头匹配，只匹配一次 pattern = re.compile('\d+') result = pattern.match(str) print(result) NONE# search 全局匹配，只匹配一次 pattern = r...

2018-08-03 19:03:01 622

原创 Redis数据库基本操作

Redis数据库Redis 是一个高性能的key-value数据库。主要用Redis实现缓存数据的存储,可以设置过期时间.对于一些高频读写、临时存储的数据特别适合.性能极高 – Redis能读的速度是110000次/s,写的速度是81000次/s 。NoSQL：一类新出现的数据库(not only sql)泛指非关系型的数据库不支持SQL语法存储结构跟传统关系型数据库中的那种关系表完全不同，nos...

2018-07-04 18:50:43 150

原创在阿里云项目部署的一般步骤

基于ubuntu 16.04系统，使用 Gunicorn + Nginx 进行布署，云服务器为阿里云阿里云服务器选择云服务器:阿里云服务器 https://www.aliyun.com个人免费获取 [https://free.aliyun.com/]创建服务器选择ubuntu16.04 64位的操作系统利用命令行进行远程服务器登录ssh 用户名@ip地址相关环境安装以下操作都在远程服务器上进行操...

2018-07-04 18:48:24 1348

转载 PYTHON的RE模块理解（RE.COMPILE、RE.MATCH、RE.SEARCH）

import rehelp(re.compile)'''输出结果为：Help on function compile in module re:compile(pattern, flags=0) Compile a regular expression pattern, returning a pattern object.通过help可知：编译一个正则表达式模式，返回一个模...

2018-06-07 21:39:26 3083

原创数据库基本操作练习

--01 mysql 数据库的操作 -- 链接数据库 mysql -uroot -pmysql -- 不显示密码 ***** mysql -uroot -p 密码 -- 退出数据库 --quit/exit/ctrl + d exit(记这个) ***** quit/exit ctrl+d -- sql语句最后需要有分号;...

2018-05-21 20:01:34 796

原创闭包和装饰器

闭包叫什么: 闭包有什么用: 跟函数相对可以把外层函数的参数保留下来怎么写: def 外层函数(参数): def 内层函数(): pass return 内层函数心法: 两个函数的嵌套,外层函数返回内层函数的引用,外层函数必须有参数装饰前的test是由func指向的装饰后的test其实指向call_fu...

2018-05-18 22:58:44 84

cxy7228484的博客