全栈工程师开发手册(原创)

全栈工程师,前端工程师,后端工程师,架构师,爬虫工程师,数据分析师,大数据工程师,数据挖掘工程师,机器学习工程师,栾鹏全栈...

排序:
默认
按更新时间
按访问量

python开发大全、系列文章、精品教程

python基础教程 python基础系列教程——Python的安装与测试:python解释器、PyDev编辑器、pycharm编译器 python基础系列教程——Python库的安装与卸载 python基础系列教程——Python3.x标准模块库目录 python基础系列教程——Pyth...

2018-02-13 23:17:01

阅读数:44950

评论数:77

c++通过pybind11制作模型python接口,生成python调用包

pybind11

2018-08-09 18:08:24

阅读数:3055

评论数:0

python数据分析系列教程——Pandas全解

起步 Pandas最初被作为金融数据分析工具而开发出来,因此 pandas 为时间序列分析提供了很好的支持。 Pandas 的名称来自于面板数据(panel data)和python数据分析 (data analysis) 。panel data是经济学中关于多维数据集的一个术语,在Pandas...

2018-06-01 09:04:35

阅读数:4276

评论数:0

NLP自然语言处理库系列教程——gensim库

Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。 - LSI - ...

2018-05-25 16:53:28

阅读数:3377

评论数:0

spark 常用函数介绍(python)

RDD RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的...

2018-05-17 15:13:01

阅读数:3404

评论数:0

python机器学习案例系列教程——LightGBM算法

全栈工程师开发手册 (作者:栾鹏) python教程全解 安装pip install lightgbmgitup网址:https://github.com/Microsoft/LightGBM中文教程http://lightgbm.apachecn.org/cn/latest/index...

2018-05-08 16:23:08

阅读数:5048

评论数:1

python机器学习案例系列教程——GBDT构建新特征

全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 GBDT的算法参考:https://blog.csdn.net/luanpeng825485697/article/details/79766455Gradient Boosting是一种Boosting的方法,它主要的思...

2018-05-01 17:54:08

阅读数:3729

评论数:0

python机器学习库keras——AutoEncoder自编码、特征压缩

全栈工程师开发手册 (作者:栾鹏) python教程全解 keras使用深度网络实现自编码,也就是说对每个样本的n维特征,使用k为特征来表示,实现编码压缩的功能。也实现了特征选择的功能。比如手写体包含754个像素,也就包含754个特征,如果想用两个特征表示。在二维矩阵中就能识别...

2018-05-01 10:02:18

阅读数:3426

评论数:0

python机器学习案例系列教程——CTR/CVR中的FM、FFM算法

全栈工程师开发手册 (作者:栾鹏) python教程全解 FM问题来源 CTR/CVR预测时,用户的性别、职业、教育水平、品类偏好,商品的品类等,经过One-Hot编码转换后都会导致样本数据的稀疏性。特别是商品品类这种类型的特征,如商品的末级品类约有550个,采用One-...

2018-04-30 09:07:40

阅读数:3757

评论数:0

python机器学习库keras——CNN卷积神经网络人脸识别

全栈工程师开发手册 (作者:栾鹏) python教程全解 github地址:https://github.com/626626cdllp/kears/tree/master/Face_Recognition 图片来源 图片中共40个人,每人10张图片,每张图片高57,宽...

2018-04-29 17:52:54

阅读数:3259

评论数:0

python机器学习库keras——CNN卷积神经网络识别手写体

全栈工程师开发手册 (作者:栾鹏) python教程全解 keras使用CNN识别手写体 其中使用到了MNIST.py文件,该文件读取手写体文件,返回数组数据。可参考我的github:https://github.com/626626cdllp/kears/tree/ma...

2018-04-29 14:57:25

阅读数:3789

评论数:0

python机器学习库keras——线性回归、逻辑回归、一般逻辑回归

全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 线性回归import numpy as npfrom keras.models import Sequential from keras.layers import Dense import matplotlib.pypl...

2018-04-29 11:13:19

阅读数:3271

评论数:0

面试数据结构试题

链表: 1、找出单链表的倒数第K个元素(仅允许遍历一遍链表) 答:使用指针追赶的方法,定义一个fast指针和一个slow指针,fast指针先走K步,然后fast和slow同时继续走。当fast指针走到链表尾部时,slow指向的位置就是倒数第K个元素。注意:要考虑链表长度应该大于K。参考...

2018-04-25 23:11:02

阅读数:3048

评论数:0

机器学习案例系列教程——损失函数总结

注意区分样本损失,和样本集的损失 在本文,我们要注意区分,一个样本的损失值为 loss(y,f(x))loss(y,f(x))loss(y,f(x)) 而多个样本的损失值为 1n∑i=1nloss(y,f(x))1n∑i=1nloss(y,f(x))\frac{1}{n}\sum_{i=1...

2018-04-22 09:50:20

阅读数:3259

评论数:0

机器学习案例系列教程——距离度量方法总结

  在数据挖掘中,无论是对数据进行分类、聚类还是异常检测、关联性分析,都建立在数据之间相似性或相异性的度量基础上。通常使用距离作为数据之间相似性或相异性的度量方法,常用的度量方法有欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、汉明距离、余弦距离、马氏距离、Jaccard系数、相关系数、信息熵...

2018-04-21 18:08:28

阅读数:3060

评论数:0

机器学习案例系列教程——优化方法总结(梯度下降法、牛顿法、拟牛顿法、共轭梯度法等)

梯度下降法 梯度下降法是最早最简单,也是最为常用的最优化方法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被...

2018-04-21 15:46:26

阅读数:3411

评论数:0

python机器学习案例系列教程——算法总结

机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(a...

2018-04-17 22:42:35

阅读数:3442

评论数:0

海量数据处理的 Top K相关问题

Top-k的最小堆解决方法问题描述:有N(N>>10000)个整数,求出其中的前K个最大的数。(称作Top k或者Top 10)问题分析:由于(1)输入的大量数据;(2)只要前K个,对整个输入数据的保存和排序是相当的不可取的。可以利用数据结构的最小堆来处...

2018-04-17 16:10:56

阅读数:3134

评论数:0

python机器学习库xgboost——xgboost算法

全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 安装 xgboost目前还不能pip在线安装,所以先在网址https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 中下载whl文件,然后参考https://b...

2018-04-12 08:56:40

阅读数:3098

评论数:2

python机器学习库sklearn——特征提取

全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 注意:特征特征提取与 特征选择 有很大的不同:前者包括将任意数据(如文本或图像)转换为可用于机器学习的数值特征。后者是将这些特征应用到机器学习中。 从字典类型加载特征 类 DictVectorizer 可...

2018-04-10 10:49:37

阅读数:2558

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭