黑暗之神

Fighting in the dark

从一段代码浅谈pyspark性能优化

问题引出我们在日常的特征工程中,常常需要将多张表进行关联操作,也就是所谓的join。现在有三张表A,B,C,其中A表数据总大小约300M, B表总数据大小约15G,C表数据总大小约400G,现在的需求是对这三张表做join,该如何实现?常规做法最简单的一种实现,就是先将其中的两张表join,再将剩...

2018-03-14 17:36:51

阅读数 1412

评论数 1

一个ACM渣渣关于找工作的胡扯

先做个自我介绍。本人开学大四,从大一下开始玩acm,无奈能力有限,智商拙计,打铁无数,最好成绩也不过烂铜一个。伤心之余,大三开始一脚踩入互联网企业的浪潮之中,开始翘课奔波于各种面试,实习,项目,工作之间。从实习到校招先后面了百度,腾讯,阿里,360搜索,知乎,敦煌网等n多家公司,最终拿到百度复合搜...

2015-09-03 21:09:24

阅读数 3953

评论数 4

jieba源码阅读与思考

jieba源码阅读笔记 由于在做模型的时候需要对切词这块做些优化,jieba切词目前主要融合了基于词典的分词和HMM两种方法,阅读了一下jieba的源码,思考了几个优化方案,在此mark一下,欢迎各位大牛前来交流,如果有谬误欢迎指正~ 正常使用切词方法: # 模式一 精确模式: ...

2018-07-09 10:44:15

阅读数 327

评论数 0

LDA漫游指南阅读笔记--Gibbs采样

Gibbs采样公式:LDA并行考虑:列 某文章的单词A依赖于另外一个文章相同单词A采样后修改的nw,nwsum行 同一篇文章的后一个单词依赖于前一个单词修改后的nd,ndsum主题 同一个主题后一次采样依赖于同一个主题前一次采样的nwsum解决方案:1. AD-LDA 按行进行拆分,nd,ndsu...

2018-06-10 22:03:38

阅读数 349

评论数 0

关于分布式一致性算法一些总结

最近看了看区块链的基本原理,特地又复习了下分布式一致性算法相关的东西,画了个简单的思维导图。

2018-03-02 17:34:36

阅读数 105

评论数 0

记一次spark mllib stackoverflow踩坑

以前做als相关的东西的时候,都是用的公司的内部工具居多,今天第一次用了下spark的mlib,拿了个几M的小数据集试了个水。。 结果一跑,我擦。。。居然stackoverflow了。。 源码如下: from pyspark.mllib.recommendation import ALS fr...

2017-11-24 17:30:32

阅读数 1413

评论数 3

xgboost/gdbt/randomforest + lr入门实践

最近在调研gdbt + lr相关的东西,这方面的东西最早是从facebook发表的一篇论文(https://pdfs.semanticscholar.org/daf9/ed5dc6c6bad5367d7fd8561527da30e9b8dd.pdf)开始的。大意就是利用gdbt模型的叶子节点作为l...

2017-11-22 17:53:13

阅读数 2017

评论数 0

centos7安装python机器学习相关环境numpy,scipy,sklearn,lda

最近在学习LDA,打算用python去做些练习,在安装的时候遇到了一些坑,查了不少资料才明白原因,于是在下面做些简单的步骤总结跟大家分享下。 1,首先安装pip     yum -y install python-pip     pip install --upgrade pip(更新p...

2017-04-30 16:34:52

阅读数 2402

评论数 1

UDT协议学习笔记(一)UDT概述

UDT协议学习笔记(一)UDT概述 本人近来就职于国内某著名互联网血汗工厂,从事分布式后台相关的工作,最近的项目主要是网络相关。我们有许多海外的proxy节点,为了加速海外proxy与国内某机房的通信速率及抢占更多的带宽,于是开始调研一些udp based的应用层协议,如udt,quic等等。...

2017-02-26 17:05:41

阅读数 6486

评论数 0

leetcode Super Ugly Number

题目地址:https://leetcode.com/problems/super-ugly-number/ Super Ugly Number My Submissions Question Total Accepted: 2812 Total Subm...

2015-12-18 17:02:58

阅读数 406

评论数 0

redis学习笔记-关于redis服务器的理解

最近一边在学习《Redis设计与实现》,一边在研究Redis的源码。正巧学习了Redis单机服务器端设计这一块,感觉受益良多。下面谈一下关于redis的理解。 redis服务器端,本质上就是用C++写的一个后台server程序。Redis服务器将所有的数据库都保存在服务器状态redis.h/re...

2015-12-08 18:26:35

阅读数 591

评论数 0

随机森林的简单实现

近日听了七月天空周博的课。现在对随机森林进行一下,简单的实现。 随机森林(randomforest)是一种利用多个分类树对数据进行判别与分类的方法,它在对数据进行分类的同时,还可以给出各个变量(基因)的重要性评分,评估各个变量在分类中所起的作用。 随机森林是一个最近比较火的算法,它有很多的优点:...

2015-11-08 16:51:31

阅读数 3107

评论数 0

Spark实践之join优化

join优化应该是spark相关岗位面试必考的内容。 join其实常见的就分为两类: map-side join 和  reduce-side join。当大表和小表join时,用map-side join能显著提高效率。。 /** * Created by shenjiyi on 2015...

2015-07-08 10:57:05

阅读数 5931

评论数 0

Ubuntu上搭建Hadoop环境(单机模式+伪分布模式)

挺好的一篇文章,补充两个我在按照下面的方法部署时遇到的坑 1.由于hdfs的data文件权限不对,而导致datanode无法启动。chmod g-w /opt/data/hadoop/hdfs/data 解决方法参考:http://blog.csdn.net/caoshichaocao...

2015-06-24 16:57:44

阅读数 395

评论数 0

Linear_regression与 Logistic_regression简单比较与python实现

Linear_regression与 Logistic_regression简单比较与实现 好久没写博客了,在度厂实习期间更是天天累成了狗的节奏,最近有幸蹭到隔壁组老大小黑黑关于machine learning这块的培训(以下图片均摘自小黑黑的PPT),甚是感动,决定好好学习下这块的东西。Lin...

2015-05-31 23:33:06

阅读数 950

评论数 1

大端小端区别与判断

原文地址:http://blog.csdn.net/zhaoshuzhaoshu/article/details/37600857 1. 什么是大端,什么是小端: 所谓的大端模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中; 所谓的小端模式,是指数据的...

2015-03-28 16:45:29

阅读数 636

评论数 0

[转]C++中sizeof(struct)怎么计算?

[转]C++中sizeof(struct)怎么计算? 版权属于原作者,我只是排版。 1、 sizeof应用在结构上的情况 请看下面的结构: struct MyStruct{ double dda1; char dda; int type;}; ...

2015-03-21 23:10:29

阅读数 457

评论数 0

函数式编程扫盲篇

函数式编程扫盲篇 1. 概论 在过去的近十年的时间里,面向对象编程大行其道。以至于在大学的教育里,老师也只会教给我们两种编程模型,面向过程和面向对象。 孰不知,在面向对象产生之前,在面向对象思想产生之前,函数式编程已经有了数十年的历史。 那么,接下来,就让我们回顾这个古老又...

2015-03-03 16:08:08

阅读数 394

评论数 0

Codeforces Round #295 C. DNA Alignment

C. DNA Alignment time limit per test 2 seconds memory limit per test 256 megabytes input standard input output standard outpu...

2015-03-02 19:17:30

阅读数 683

评论数 0

Codeforces Round #295 B. Two Buttons

B. Two Buttons time limit per test 2 seconds memory limit per test 256 megabytes input standard input output standard output ...

2015-03-02 19:12:58

阅读数 837

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭