自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

【个人项目】基于scrapy-redis的股票分布式爬虫实现及其股票预测算法研究

前言 都说做计算机的,项目实践是最能带给人成长的。之前学习了很多的大数据和AI的知识,但是从来没有自己做过一个既包含大数据又包含AI的项目。后来就决定做了个大数据+AI的分布式爬虫系统。下面笔者会讲述整个项目的架构,以及所用到技术点的些许介绍。 项目介绍 这个项目是笔者的个人项目...

2018-09-10 23:44:35

阅读数 688

评论数 0

记--结合业务从零实现一个推荐系统

有空再写

2019-07-30 00:00:49

阅读数 59

评论数 0

[Python造轮子]从零实现一个类关系型数据库

前言 进入IT这一行也有几个年头了,该听闻的技术,大都没有遗漏,所以广度上的扩展,不太急迫了,但深度上的扩展,还有很多要做的工作,所以就觉得从 “造轮子” 这方面切入,慢慢扩展自己的深度了。 借助于实现一个数据库,笔者主要的目的有三个: 1.深入了解一个数据库的底层原理,以及要从零实现的...

2019-03-31 12:40:53

阅读数 98

评论数 0

深入浅出数据库索引原理

看到一篇讲述数据库原理非常好的文章,无耻的转载了。转载地址在文章尾。 前段时间,公司一个新上线的网站出现页面响应速度缓慢的问题, 一位负责这个项目的但并不是搞技术的妹子找到我,让我想办法提升网站的访问速度 ,因为已经有很多用户来投诉了。我第一反应觉的是数据库上的问题,假装思索了一下,摆着一副深...

2019-03-09 10:21:52

阅读数 57

评论数 0

为什么spark中只有ALS

前言 spark平台推出至今已经地带到2.1的版本了,很多地方都有了重要的更新,加入了很多新的东西。但是在协同过滤这一块却一直以来都只有ALS一种算法。同样是大规模计算平台,Hadoop中的机器学习算法库Mahout就集成了多种推荐算法,不但有user-cf和item-cf这种经典算法,还有KNN...

2019-02-22 18:56:44

阅读数 149

评论数 0

Single Number II leetcode java

在做下面这道题的时候,很可耻的使用了HashMap来AC了,但查到网上思路完全不是这样,一看题解,原来这道题还是有学问的,特记录下。 题目: Given an array of integers, every element appears three times except for one. ...

2019-01-24 23:15:11

阅读数 255

评论数 0

Spark的GPU支持方法研究

引言:工作以来研究了一段时间的Spark利用GPU进行异构加速训练的的研究。下文是整理了网上一些常见的Spark结合GPU使用的方法。 为了使用Spark进行机器学习,支持GPU是必须的,上层再运行神经网络引擎。目前AWS\GCP和Databricks的云都已经支持GPU的机器学习,AliYu...

2018-12-22 17:54:32

阅读数 979

评论数 0

LeetCode25 以k为一组,反转链表

[LeetCode25] Reverse Nodes in k-Group 每k个一组翻转链表 ven a linked list, reverse the nodes of a linked list k at a time and return its modified list. k is...

2018-12-06 11:18:01

阅读数 86

评论数 0

LeetCode(17) - Letter Combinations of a Phone Number

经典的backtracking(回溯算法)的题目。当一个题目,存在各种满足条件的组合,并且需要把它们全部列出来时,就可以考虑backtracking了。当然,backtracking在一定程度上属于穷举,所以当数据特别大的时候,不合适。而对于那些题目,可能就需要通过动态规划来完成。 递归解法 这道...

2018-11-25 12:47:50

阅读数 62

评论数 0

2Sum Ksum解法

2Sum 题目 Given an array of integers, return indices of the two numbers such that they add up to a specific target. You may assume that each input w...

2018-11-24 00:49:33

阅读数 155

评论数 0

加速python运行-numba

numba是一个用于编译Python数组和数值计算函数的编译器,这个编译器能够大幅提高直接使用Python编写的函数的运算速度。 numba使用LLVM编译器架构将纯Python代码生成优化过的机器码,通过一些添加简单的注解,将面向数组和使用大量数学的python代码优化到与c,c++和Fortr...

2018-11-21 16:29:06

阅读数 838

评论数 0

python3解决位移溢出

在观看该文章前,读者先可以看看这篇文章,清晰明了的介绍了位移的操作:https://www.cnblogs.com/yx729315991/p/6387711.html 因为要将js的一个签名算法移植到python上,遇到一些麻烦。 int无限宽度,不会溢出 算法中需要用到了32位int的溢出来参...

2018-11-19 17:13:17

阅读数 520

评论数 0

Python cffi 初探

新建立一个 ext_build.py 用于生成扩展 # ext_build.py import numpy as np import cffi ffi = cffi.FFI() ffi.cdef("""...

2018-11-18 11:00:17

阅读数 333

评论数 0

Flume拦截器---实现按照时间生成数据目录

Flume中的拦截器(interceptor),当Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗。这在实际业务场景中非常有用,Flume-ng 1.7中目前提供了以下拦截器: Timestam...

2018-10-27 23:54:42

阅读数 1011

评论数 0

spark多种运行模式【基于原理讲述】

1. 本地模式 该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上有没有问题。 其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。 如果是local[*],则代表 R...

2018-09-05 11:11:18

阅读数 255

评论数 0

【干货】快速搭建CDH的yum本地源的详细过程

在做项目的过程中,项目环境上不了网,但利用CM安装CDH的过程中,发现cloudera-cdh5的yum源会自动的访问网络,因此报错,导致安装不成功。因此需要安装一个本地的yum源。下文是经转载而来,但一些细节会结合我的项目环境而改变。 为了方便在局域网中安装CDH集群,搭建一个CDH的...

2018-08-09 16:30:55

阅读数 501

评论数 0

【解决】Centos7 离线安装gcc-4.8.5(利用rpm包)

最近需要在Centos7 安装gcc-4.8.5,但很不幸,环境没有网络,因此只能手动下载回所有依赖,并依次安装。 一开始我是不知道gcc-4.8.5有什么依赖的,就到网上去找gcc-4.8.0等其他版本的依赖(因为找不到有讲gcc-4.8.5的版本),然后再自己揣摩,但这样效率很低。 后来在这...

2018-07-18 11:13:14

阅读数 9454

评论数 5

【解决】Centos7 安装NVDIA GPU+TensorFlow-gpu1.5.0

由于项目需要,需要安装tensorflow-gpu1.5.0到Centos环境下。 环境介绍: Centos7 gcc-4.8.5 python3.5 我用的GPU的种类是:GeForce GTX1080 Ti,是英伟达的GeForce系列10的产品。 安装T...

2018-07-16 14:55:28

阅读数 921

评论数 2

使用Python写CUDA程序

使用Python写CUDA程序有两种方式: * Numba * PyCUDA numbapro现在已经不推荐使用了,功能被拆分并分别被集成到accelerate和Numba了。 例子 numba Numba通过及时编译机制(JIT)优化Python代码,Numba可以针对本机的...

2018-07-05 18:02:38

阅读数 5192

评论数 0

快速熟悉one-hot,N-gram,word2vec模型

在自然语言处理领域,最开始的学习肯定绕不开one-hot,N-gram,word2vec。下文会快速,简要的介绍这两种技术,至于更多的技术细节,可以参考文章最后的参考文献。在阅读了本篇文章后,读者应该能够达到如下几个目的: 1.明白one-hot,N-gram,word2vec的作...

2018-06-25 17:34:36

阅读数 3238

评论数 0

提示
确定要删除当前文章?
取消 删除