很美味的小猪猪

最棒的猪猪!!!道阻且长 行则将至 一起努力吧~

【机器学习】样本不均衡问题

对于二分类问题, 当训练集中正负样本非常不均衡时, 如何处理数据以更好地训练分类模型? 这里有个问题是:如何判断数据是否平衡呢?w(゚Д゚)w real world data经常会面临class imbalance问题,即正负样本比例失衡。根据计算公式可以推知,在testing set出现i...

2019-07-20 14:46:23

阅读数 1

评论数 0

【剑指offer】数据流中的中位数

主要思路: # -*- coding:utf-8 -*- from heapq import * class Solution: def __init__ (self): self.maxheap = [] self.minheap = [] ...

2019-07-19 23:57:43

阅读数 2

评论数 0

【深度学习】BatchSize

Batch_size的使用意义及大小的选择 Batch_size不宜选的太小,太小了容易不收敛,或者需要经过很大的epoch才能收敛;也没必要选的太大,太大的话首先显存受不了,其次可能会因为迭代次数的减少而造成参数修正变的缓慢。 Batch_size有时候明明已经很小了,可显存还是很紧张,还有就...

2019-07-18 19:09:33

阅读数 8

评论数 0

【深度学习】Softmax

softmax交叉熵 一般在神经网络中, softmax可以作为分类任务的输出层。其实可以认为softmax输出的是几个类别选择的概率,比如我有一个分类任务,要分为三个类,softmax函数可以根据它们相对的大小,输出三个类别选取的概率,并且概率和为1。 softmax函数的公式是这种形式: ...

2019-07-18 11:39:56

阅读数 60

评论数 0

【剑指offer】旋转数组的最小数字

二分查找(Binary Search):每次查找都把旋转数组平均分成两部分,通过比较当前旋转数组两端点和中间点的值,判断最小值在数组的哪一部分,从而达到缩小搜索范围的目的。其中,两端点为当前的旋转数组索引最小和索引最大的元素,中间点为这两部分子数组的连结元素,也可以看做为轴枢点(pivot poi...

2019-07-17 23:39:42

阅读数 10

评论数 0

【Python】优先队列和双端队列

优先队列 元素加入优先队列时,队列里不一定是排序的,但是get弹出元素时,一定是弹的当前队列里最小的元素。 from queue import PriorityQueue # 优先队列 # 创建优先队列 pQ = PriorityQueue() # pQ.put(3) pQ.put(100)...

2019-07-12 23:01:55

阅读数 12

评论数 0

【SQL】复习与回顾

https://blog.csdn.net/ljk168/article/details/79662078 https://blog.csdn.net/Eason_oracle/article/details/81025681 SQL(五)

2019-07-12 15:17:46

阅读数 12

评论数 0

【剑指offer】最小的k个数

题目描述 headp实现大顶堆 输入n个整数,找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4个数字是1,2,3,4,。 # -*- coding:utf-8 -*- import heapq class Solution: def GetLeas...

2019-07-12 01:59:07

阅读数 9

评论数 0

【剑指offer】顺时针打印矩阵

顺时针打印二维矩阵 # -*- coding:utf-8 -*- import numpy as np class Solution: # matrix类型为二维列表,需要返回列表 def printMatrix(self, matrix): # write c...

2019-07-12 01:00:45

阅读数 6

评论数 0

【Shell】执行sh ./xxx.sh出现:“Syntax error: “(” unexpected”的解决方法

“Syntax error: “(” unexpected”,这个方法需要管理员密码,可一般公司的集群,不会得知管理员密码的,上述方法失效。 做如下改动: $ vi ~/.bashrc # 修改~/.bashrc里的内容,如下 alias ls='ls --color' alias sh=...

2019-07-11 11:49:44

阅读数 62

评论数 0

【Python】json模块

一、概念理解 1、json.dumps()和json.loads()是json格式处理函数(可以这么理解,json是字符串)   (1)json.dumps()函数是将一个Python数据类型列表进行json格式的编码(可以这么理解,json.dumps()函数是将字典转化为字符串)   (2)...

2019-07-04 15:57:40

阅读数 14

评论数 0

【Hadoop】入门笔记

Hadoop Streaming 实例 # 读取地址,数据集的存放路径 INPUT='afs://公司隐私/zhengxin/zx_join' # 读取结果的存放地址,自己集群里的一个目录 OUTPUT='afs://个人隐私/myname/test' # REDUCE_NUM=50 # Ha...

2019-07-03 17:39:10

阅读数 20

评论数 0

【Python】Argparse模块

argparse是一个模块 Python3.7 - Argparse模块讲解

2019-07-01 16:03:07

阅读数 16

评论数 0

【机器学习】评价指标PSI

话说这个我研一数据挖掘学过,但是现在一点点也不记得了

2019-06-26 14:01:00

阅读数 38

评论数 0

【Pandas】学习记录

pandas中利用 .iloc 和 .loc 选取数据 Pandas 基本的数据结构是 Series(数组) 和 DataFrame(类似二维数组),Pandas 提供了 Index 对象,每个 Series 都会带有一个对应的Index,用来标记不同的元素,Index 的内容不一定是数字,...

2019-06-26 10:53:18

阅读数 25

评论数 0

【实习小结】

01-第一次使用Jupyter

2019-06-26 10:23:39

阅读数 31

评论数 0

【Hadoop】Hadoop学习笔记

hadoop核心组件 1. hadoop包含的模块: Hadoop common:提供一些通用的功能支持其他hadoop模块。 Hadoop Distributed File System:即分布式文件系统,简称HDFS。主要用来做数据存储,并提供对应用数据高吞吐量的访问。 ...

2019-06-24 18:57:12

阅读数 43

评论数 0

【机器学习】Xgboost(下)近似分位数算法和使用

近似算法 对于连续型特征值,当样本数量非常大,该特征取值过多时,遍历所有取值会花费很多时间,且容易过拟合。因此XGBoost思想是对特征进行分桶,即找到l个划分点,将位于相邻分位点之间的样本分在一个桶中。在遍历该特征的时候,只需要遍历各个分位点,从而计算最优划分。从算法伪代码中该流程还可以分为两...

2019-06-24 18:13:20

阅读数 56

评论数 0

【风控实践】信用卡欺诈检测(下)

传送门:【风控实践】信用卡欺诈检测(上) 针对不平衡数据,采用上采样的方法STOME算法进行分析。 处理数据 import numpy as np import pandas as pd import matplotlib.pyplot as plt plt.style.use('ggpl...

2019-06-24 11:13:31

阅读数 24

评论数 0

【风控实践】ATEC蚂蚁开发者大赛-支付风险识别

赛题的目的是根据历史交易数据识别当前交易是否为欺诈交易。举办方给出由一段时间内有正负标签样本的支付行为样本和没有标签的支付行为样本组成的训练数据集和一段时间后的某个时间范围内的支付行为样本构成的测试数据集,希望选手们通过机器学习算法和对无标签数据的挖掘在训练集上训练出性能稳定时效性好的模型,能够在...

2019-06-21 15:02:26

阅读数 96

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭