Bryan__的专栏

https://github.com/YouChouNoBB

spark的join和leftJoin使用union和reduce实现

在spark中使用自带的join与leftJoin容易引发性能问题,所以可以改写为union后reduce来提升性能。   import scala.reflect.ClassTag def leftJoin(left:RDD[(String, String)],right:RDD[(Str...

2018-12-01 15:07:20

阅读数 160

评论数 2

使用spark scala计算信息熵,信息增益,信息增益率

找了下,没找到现成的代码,自己写了个,速度还能接受,可以用来做简单的特征选择 import org.apache.spark.rdd.RDD class FeatureSelect { //信息熵 def entropyRDD(data:RDD[String])={ val ...

2018-10-30 20:40:27

阅读数 390

评论数 0

win7+spark

https://blog.csdn.net/u011513853/article/details/52865076 https://blog.csdn.net/u011464774/article/details/76697183 F:\Program Files\hadoop\bin\win...

2018-09-27 19:49:48

阅读数 259

评论数 0

IJCAI-18 阿里妈妈搜索广告算法大赛亚军解决方案

代码和解决方案见github: https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution

2018-06-06 20:06:23

阅读数 4659

评论数 5

基于sklearn同时处理连续特征和离散特征

核心思路:先用LabelEncoder对离散特征编码,因为onehotencoder只能处理数值然后使用OneHotEncoder编码,生成稀疏表示的特征再使用sparse.hstack连接连续特征和稀疏特征为什么不使用pd.get_dummy呢,因为这样是直接生成的稠密矩阵,内存开销太大# co...

2018-04-12 12:10:42

阅读数 2527

评论数 1

python计算稀疏表示的TF-IDF

使用sklean的计算方法,这种结果是稠密矩阵,如果数据集太大,计算结果将会占满内存,或者直接报MemeryError的错误。tfidf详细计算参考:https://blog.csdn.net/Eastmount/article/details/50323063import jieba imp...

2018-04-02 20:47:20

阅读数 1362

评论数 4

腾讯2018广告算法大赛思路解析 100行代码带你上0.73

比赛报名地址:algo.qq.com/person/mobile/landingPage?from=dsbryan由于本次比赛我属于内部员工不得参赛,所以我尽量写一些思路解析,为大家提供一个baselinegithub:https://github.com/YouChouNoBB/2018-ten...

2018-03-20 11:33:41

阅读数 27158

评论数 72

在Python中使用多进程快速处理数据

数据分片:可以将数据分片处理的任务适合用多进程代码处理,核心思路是将data分片,对每一片数据处理返回结果(可能是无序的),然后合并。应用场景:多进程爬虫,类mapreduce任务。缺点是子进程会拷贝父进程所有状态,内存浪费严重。import math from multiprocessing i...

2017-12-12 21:59:06

阅读数 2175

评论数 0

python中ndarray与dataframe互转

情况1:输入的数据data为list 情况2:输入的数据data为dict 情况3:输入的数据data为ndarray

2017-12-11 21:54:43

阅读数 5221

评论数 0

学习经历与求职经历分享

内容: 1.介绍数据挖掘入门学习线路 2.BRYAN的学习经历和求职经历分享 3.学习资料分享 https://tianchi.aliyun.com/competition/new_articleDetail.html?spm=5176.8366600.0.0....

2017-09-28 10:07:11

阅读数 4859

评论数 1

图解RNN、RNN变体、Seq2Seq、Attention机制

转自:https://zhuanlan.zhihu.com/p/28054589 本文主要是利用图片的形式,详细地介绍了经典的RNN、RNN几个重要变体,以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角,帮助初学者更好地入门。 一、从单层网络谈起 ...

2017-09-07 20:53:52

阅读数 2933

评论数 0

从ctr预估问题看看f(x)设计—DNN篇

转自:https://zhuanlan.zhihu.com/p/28202287 把DNN引入ctr预估无非看重两点: 一,改进模型结构,提高“信息利用率”,发现高阶非线性特征,挖掘以前挖不到潜在模式,比如DIN引入attention机制;一般来说Embedding+MLP是标配。 二,...

2017-08-24 21:50:57

阅读数 5198

评论数 2

[天池竞赛系列]IJCAI-17 口碑商家客流量预测冠军思路

题目链接:https://tianchi.aliyun.com/competition/introduction.htm?spm=5176.100066.0.0.773ef42fw2ednG&raceId=231591   代码链接: https://github.c...

2017-08-20 22:32:13

阅读数 12714

评论数 19

python快速入门

来源:http://cs231n.github.io/python-numpy-tutorial/#python-basic Table of contents: Python Basic data typesContainers ListsDictionariesSets...

2017-08-18 22:12:31

阅读数 1227

评论数 0

DenseNet 简介

1.首先对深度学习做一个简单的回顾 2.介绍DenseNet 1.1 DNN回顾 如下图所示是一个基本DNN结构,通过forward传播和backword传播来训练一个模型 包含input层,L个隐藏层和一个output 隐层使用的sigmoid激活函数 一般的优化方法有如下几种 GD:对...

2017-08-17 19:00:11

阅读数 15238

评论数 3

1x1卷积核如何降低参数量

本文介绍1*1的卷积核与googlenet里面的Inception。正式介绍之前,首先回顾卷积网络的基本概念。  1. 卷积核:可以看作对某个局部的加权求和;它是对应局部感知,它的原理是在观察某个物体时我们既不能观察每个像素也不能一次观察整体,而是先从局部开始认识,这就对应了卷积。卷积核的大小一...

2017-08-17 15:53:28

阅读数 3112

评论数 1

基于tensorflow实现word2vec

使用NCE作为损失函数,SGD优化,skipGram模式 # -*- coding: utf-8 -*- """ Created on Sat Jul 22 17:35:12 2017 @author: bryan """ impor...

2017-07-31 20:24:48

阅读数 1434

评论数 0

scala集合操作

Scala是数据挖掘算法领域最有力的编程语言之一,语言本身是面向函数,这也符合了数据挖掘算法的常用场景:在原始数据集上应用一系列的变换,语言本身也对集合操作提供了众多强大的函数,本文将以List类型为例子,介绍常见的集合变换操作。 一、常用操作符(操作符其实也是函数) ++ ++[B](tha...

2017-07-31 19:22:57

阅读数 1022

评论数 0

在tensorflow中使用CNN

# -*- coding: utf-8 -*- """ Created on Tue Jul 18 15:48:07 2017 @author: bryan """ import tensorflow as tf from tenso...

2017-07-19 22:10:06

阅读数 555

评论数 0

CNN笔记:通俗理解卷积神经网络

来源:http://blog.csdn.net/v_july_v/article/details/51812459 通俗理解卷积神经网络(cs231n与5月dl班课程笔记) 1 前言     2012年我在北京组织过8期machine learning读书会,那时“...

2017-07-19 11:40:04

阅读数 854

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭