- 博客(345)
- 资源 (35)
- 收藏
- 关注
翻译 Deep Learning textbook
The Deep Learning textbook is a resource intended to help students and practitioners enter the field of machine learning in general and deep learning in particular. The online version of the book is n...
2019-03-18 22:15:19 291
转载 机器学习研究与开发平台的选择
目前机器学习可以说是百花齐放阶段,不过如果要学习或者研究机器学习,进而用到生产环境,对平台,开发语言,机器学习库的选择就要费一番脑筋了。这里就我自己的机器学习经验做一个建议,仅供参考。 首先,对于平台选择的第一个问题是,你是要用于生产环境,也就是具体的产品中,还是仅仅是做研究学习用?1. 生产环境中机器学习平台的搭建 如果平台是要用于生产环境的话,接着有一个问题,就是对产品...
2019-03-18 22:13:12 140
转载 日志和告警数据挖掘经验谈
最近参与了了一个日志和告警的数据挖掘项目,里面用到的一些思路在这里和大家做一个分享。 项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理,主要是归类(Grouping)和关联(Correlation),从而得到告警和日志的一些统计关系,这些统计结果可以给一线支持人员参考。 得到的数据主要分为两部分,一部分是告警的历史数据,这部分数据很少,只有50M左...
2019-03-18 22:11:43 327
转载 数理统计(1)
MCMC(四)Gibbs采样摘要: MCMC(一)蒙特卡罗方法 MCMC(二)马尔科夫链 MCMC(三)MCMC采样和M-H采样 MCMC(四)Gibbs采样 在MCMC(三)MCMC采样和M-H采样中,我们讲到了M-H采样已经可以很好的解决蒙特卡罗方法需要的任意概率分布的样本集的问题。但是M-H采样有两个缺点:一是需要计算接受率,在阅读全文MCMC(三)MCMC采样和M-H采样摘要...
2019-03-18 21:58:54 241
转载 条件随机场、CBOW、word2vect、skip-gram、负采样、分层softmax(1)
用gensim学习word2vec摘要: 在word2vec原理篇中,我们对word2vec的两种模型CBOW和Skip-Gram,以及两种解法Hierarchical Softmax和Negative Sampling做了总结。这里我们就从实践的角度,使用gensim来学习word2vec。 1. gensim安装与概述 gensim是一word2vec原理(三) 基于Neg...
2019-03-18 21:55:24 489
原创 GBDT 详解
gbdt 的算法的流程? gbdt 如何选择特征 ? gbdt 如何构建特征 ? gbdt 如何用于分类? gbdt 通过什么方式减少误差 ? gbdt的效果相比于传统的LR,SVM效果为什么好一些 ? gbdt 如何加速训练? gbdt的参数有哪些,如何调参 ? gbdt 实战当中遇到的一些问题 ? gbdt的优缺点 ?GBDT 详解https://blog.csdn....
2019-03-18 09:39:51 566 1
原创 TensorFlow读取自己数据集的几个小方法
1. mat -> ndarray数据处理经常用到matlab,matlab中数据保存格式常为.mat,因此首先提供一份从mat转到ndarray的代码.#读取.mat格式数据#.mat 中包含trainFeatures矩阵import tensorflow as tfimport osimport numpy as npimport scipy.io #for load m...
2019-03-18 09:35:59 4218 2
原创 logistics 与最大熵模型原理及python代码实现
Logistic Regression(逻辑回归)原理及公式推导https://blog.csdn.net/programmer_wei/article/details/52072939逻辑回归原理详细推导https://blog.csdn.net/qq_38923076/article/details/82925183逻辑回归跟最大熵模型到底有啥区别呢?简单粗暴的回答是:...
2019-03-17 21:45:24 926
转载 命名实体识别以及词性自动标注
数据挖掘的基本任务基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。就是通过选择'多个特征',进行数据分析,得出结果。 简单介绍一下什么是命名实体识别及其在实现过程中将会遇到的问题。命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的...
2019-03-17 17:20:34 2043
翻译 The equivalence of logistic regression and maximum entropy models
John Mount∗ September 23, 2011 AbstractAs our colleague so aptly demonstrated ( http://www.win-vector.com/blog/2011/09/the-simplerderivation-of-logistic-regression/ (link) ) there is one derivatio...
2019-03-16 14:22:31 1137
转载 NLP各种词库
https://github.com/xianhu/funNLP最近需要从文本中抽取结构化信息,用到了很多github上的包,遂整理了一下,后续会不断更新。很多包非常有趣,值得收藏,满足大家的收集癖! 如果觉得有用,请分享并star,谢谢!涉及内容包括:中英文敏感词、语言检测、中外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆...
2019-03-14 11:18:46 10409 1
转载 大规模图搜索和实时计算在阿里反作弊系统中的应用
经过多年在全球最大的电商平台大数据上的沉淀和积累,阿里电商反作弊形成了一套监控预警、识别分析和处罚管控的多维度监管机制,特别是对虚假交易的数据监控和算法识别上应用了覆盖全链路大数据的实时分析处理能力以及大规模图搜索技术来鉴别作弊行为。作者:涵空针对电商平台上的作弊行为,阿里巴巴一直秉承着零容忍的态度,在虚假交易的识别防控以及处罚力度上没有最强只有更强。经过多年在全球最大的电商平台大数据上的...
2019-03-13 23:04:51 322
转载 敏感词屏蔽
前言全文约1800字,阅读需3分钟。最近对直播比较感兴趣,被问到一个问题——如何屏蔽弹幕中的不良内容?于是便有了如下的学习内容。不止是弹幕噢~什么是敏感词汇?Q:哪些词算是敏感词汇?A:敏感词可大致分为以下几类:政治相关和人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽刺类、时事类、广告和非法信息、其他。(网上有很多专门的敏感词库,我在网盘里上传了一份名为百度内部的敏感词文件,仅供查...
2019-03-13 23:01:49 5433 1
原创 作弊与反作弊
简介全文约3000字,阅读大约需要5分钟。你将看到以下内容:广告作弊与反作弊百度SEO反作弊淘宝电商反作弊互联网作弊是什么?互联网作弊是一种很普遍的行为,就我们所最熟悉的来说,有电商和O2O的刷单刷信誉行为、广告作弊等,具体分类如下图:广告作弊与反作弊1.背景:互联网广告成为主流2.数字营销(互联网广告)分两类:●品牌广告:以品牌宣传为主,多以千次曝光的...
2019-03-13 22:54:09 3301
转载 基于 Google 搜索的半自动推荐
与统计学相比,基于内容来向用户推荐相似的内容,往往更容易获得。对于推荐来说,则有两种方式:手动推荐 自动推荐手动推荐。在技术领域,作者通常比大多数读者更专业,他们往往知道什么是读者需要的。如,你看了一个 React 相关的文章,你可能会需要 Redux 相关的内容。自动推荐。需要一些前提条件:融合现有系统的数据信息,获取一些用户的信息。随后,再计算出相关的内容,最后返回给读者。而在...
2019-03-13 22:16:09 231
转载 基于统计与评分
推荐系统推荐系统是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”。对于推荐系统系统来说,目前采用的主要方式是:基于内容推荐:内容之间的相似度,如文章的标签、电影的属性、书籍的分类。 协同过滤(待实现):用户之间的相似度,如喜欢看科幻片的 A、B 用户、并且都看过 a 电影,A 喜欢看的 c 电影,B 也可能喜欢 c 电影。要实现这两种方式有一个前提是,用户数据。特别是...
2019-03-13 22:14:44 883
转载 awk 手册
简体中文版由bones7456 (http://li2z.cn)整理. 原文:应该是http://phi.sinica.edu.tw/aspac/reports/94/94011/但是原文很乱. 说明:之前也是对awk几乎一无所知,无意中看到这篇文章,网上一搜,居然没有像样的简体中文版.有的也是不怎么完整,或者错误一大堆的.于是就顺手整理了下这篇文章.通过整理这篇文章,自己也渐渐掌握了awk...
2019-03-13 22:01:08 206
转载 nlp中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert
本文以QA形式对自然语言处理中的词向量进行总结:包含word2vec/glove/fastText/elmo/bert。目录一、文本表示和各词向量间的对比1、文本表示哪些方法?2、怎么从语言模型理解词向量?怎么理解分布式假设?3、传统的词向量有什么问题?怎么解决?各种词向量的特点是什么?4、word2vec和NNLM对比有什么区别?(word2vec vs NNLM)5、wor...
2019-03-13 09:58:17 8181 7
原创 斯坦福大学stanford
https://www.stanford.edu/斯坦福大学(Stanford University),全名小利兰·斯坦福大学(Leland Stanford Junior University),简称“斯坦福(Stanford)”,位于美国加州旧金山湾区南部的帕罗奥多市(Palo Alto)境内[1],临近世界著名高科技园区硅谷,是世界著名的私立研究型大学[1]。斯坦福大学占地约...
2019-03-13 09:45:52 878
转载 Locality-sensitive hashing
Locality-sensitive hashing(LSH)reduces the dimensionalityof high-dimensional data. LSHhashesinput items so that similar items map to the same “buckets” with high probability (the number of bucket...
2019-03-12 11:12:28 518
原创 Santander Customer Transaction Prediction(2)
https://www.kaggle.com/c/santander-customer-transaction-prediction/leaderboardimport pandas as pdimport matplotlib.pyplot as plt# 初始化sparkdef spark_init(master = "yarn",appName="test"): fr...
2019-03-10 22:23:09 2866 4
转载 数据科学&高级分析 (Data science & advanced analytics)
11:15–11:55 Friday, 2017-07-14使用R和Apache Spark处理大规模数据 (Scaling R faster and larger using Apache Spark)地点:多功能厅5B+C(Function Room 5B+C)观众水平 (Level): 中级 (Intermediate)Xiaoyong Zhu(Microsoft)平均得...
2019-03-10 21:39:27 1077
转载 从LR到DNN点击率预估
描述 (Description)对于广告点击率预估的是一个热点问题,很多从事计算广告的公司都有自己的点击率预估系统,其中知识点涉及从相对简单的logistic regression到最近google提出的Wide & Deep Learning.如何稳定可控地改进点击率预估系统,对于数据,架构,算法这三方面在不同的时间点要做什么事情是我这次想要分享的主题.基于过去在meidav(...
2019-03-10 21:36:53 1255
原创 Practical Lessons from Predicting Clicks on Ads at Facebook
Xinran He, Junfeng Pan, Ou Jin, Tianbing Xu, Bo Liu ⇤ , Tao Xu ⇤ , Yanxin Shi ⇤ ,Antoine Atallah ⇤ , Ralf Herbrich ⇤ , Stuart Bowers, Joaquin Quiñonero CandelaFacebook1601 Willow Road, Menlo Par...
2019-03-10 19:31:58 1993
原创 GBDT 特征提取(2)
1. GBDT + LR 是什么本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文Practical Lessons from Predicting Clicks on Ads at Facebook。2. GBDT + LR 用在哪GBDT+LR 使用最广泛的场景是CTR点击率预估,即预测...
2019-03-10 19:15:49 3940
转载 使用GBDT选取特征
为什麽选取特征有些特征意义不大,删除后不影响效果,甚至可能提升效果。关于GBDT(Gradient Boosting Decision Tree)可以参考:GBDT(MART)概念简介GBDT(MART) 迭代决策树入门教程 | 简介机器学习中的算法(1)-决策树模型组合之随机森林与GBDT如何在numpy数组中选取若干列或者行?>>> impo...
2019-03-10 19:10:57 5679
转载 Python 信用卡评分模型 自动分箱&逻辑回归&制作评分卡
import numpy as npimport pandas as pdfrom sklearn.cluster import KMeansfrom statsmodels.stats.outliers_influence import variance_inflation_factorimport statsmodels.api as smfrom sklearn.model_se...
2019-03-09 17:39:39 2234
转载 url去重:布隆过滤器-python实现
布隆过滤器是什么?在爬虫爬取网页的时候,我们会做的一件事情是判断这个网页是否之前已经爬取过。这个检验步骤在之前的文章里我是用了一个#集合#来保存已经爬取过的网页,而在计算机当中,使用hash表来保存。Hash表的好处就是能够快速定位,而它的缺点也众所皆知,就是存储空间的浪费。为什么会浪费存储空间呢?哈希表方法需要把实实在在的具有特定长度的元素的信息指纹存储在内存或硬盘中的哈希表中(比如每...
2019-03-08 10:19:40 1495
翻译 2018年,20大Python数据科学库都做了哪些更新
作者:呆鸟 Python爱好者社区专栏作者,未经容许,禁止转载简书专栏:https://www.jianshu.com/u/be48b04ecc3e坚持学习Python和English两门语言,致力于让读译文就像读中文的呆鸟标签:Bokeh,Data Science,Keras,Matplotlib,NLTK,numpy,Pandas,Plotly,Python,PyT...
2019-03-07 22:41:40 263
原创 Python高性能计算库—Numba
Python高性能计算库—Numba摘要: 在计算能力为王的时代,具有高性能计算的库正在被大家应用于深度学习。例如:Numpy,本文介绍了一个新的Python库——Numba, 在计算性能方面,它比Numpy表现的更好。 最近我在观看一些SciPy2017会议的视频,偶然发现关于Numba的来历--讲述了那些C++ 横行者因为对Gil Forsyth和Lorena Barba失去信心而编写的一...
2019-03-07 11:19:56 914
转载 推荐术语:CPM、CPC、CPA、CPI、CTR、CPV、CVR
CPC (Cost Per Click): 按点击计费CPA(Cost Per Action): 按成果数计费CPM (Cost Per Mille): 按千次展现计费CVR (Click Value Rate): 转化率,衡量CPA广告效果的指标CTR (Click Through Rate): 点击率PV (Page ...
2019-03-07 09:42:05 18298
转载 机器学习在微博信息流推荐中的应用实践
由于个性化推荐是给用户推荐其感兴趣的内容,所以对于微博的内容理解和用户画像部分就显得格外重要。内容理解即通过文本内容理解和视觉理解技术,对微博内容进行细粒度表征,即形成每篇微博内容的表征向量。内容理解与用户画像由于个性化推荐是给用户推荐其感兴趣的内容,所以对于微博的内容理解...
2019-03-06 22:47:56 306
翻译 (MLR)Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction
Learning Piece-wise Linear Models from Large Scale Data for Ad Click PredictionKun Gai1, Xiaoqiang Zhu1, Han Li1, Kai Liu2†, Zhe Wang3†Alibaba Inc.jingshi.gk@taobao.com, {xiaoqiang.zxq, lihan.lh}...
2019-03-05 15:37:03 1989
转载 先知平台算法原理简介
先知机器学习平台算法原理1. 统计学角度看待机器学习问题如何从数据中“学习”到尽可能正确的知识(模型),并将其用于新数据的预测是传统机器学习需要解决的核心问题。从统计的角度看,这个问题可以表述为,依据已有的样本数据,寻找模型参数(知识)的合理估计,使得这个估计在总体样本数据上期望损失最小。 对于传统的有监督的机器学习(supervised learning)形式化的表示就是:给定样本总体D...
2019-03-05 15:33:35 3713
原创 pyspark 手写Apriori算法
其中白色部分是新增的Python进程,在Driver端,通过Py4j实现在Python中调用Java的方法,即将用户写的PySpark程序”映射”到JVM中,例如,用户在PySpark中实例化一个Python的SparkContext对象,最终会在JVM中实例化Scala的SparkContext对象;在Executor端,则不需要借助Py4j,因为Executor端运行的Task逻辑...
2019-03-05 15:27:52 1428
翻译 Introduction to Conditional Random Fields
Introduction to Conditional Random FieldsImagine you have a sequence of snapshots from a day in Justin Bieber’s life, and you want to label each image with the activity it represents (eating, sleepi...
2019-03-05 10:34:52 375
转载 阿里妈妈首次公开自研CTR预估核心算法MLR
阿里妈妈算法团队阿里技术2017-06-15一、 技术背景CTR(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数除以广告的展现量。点击率预估(Click-Through Rate Prediction)是互联网主流应用(广告、推荐、搜索等)的核心算法问题,...
2019-03-04 14:17:19 367
原创 sklearn机器学习之特征工程
特征工程是什么数据探索性分析Exploratory Data AnalysisEDA数据预处理无量纲化 数据规范化标准化 0均值标准化Z-score standardization区间缩放法线性函数归一化Min-Max scaling标准化与归一化的区别 标准化规范化与归一化的区别对定量特征二值化对定性特征哑编码缺失值计算数据变换回顾特征选择Fi...
2019-03-03 19:15:10 3172 2
转载 数据离散程度的衡量
我们通常使用均值、中位数、众数等统计量来反映数据的集中趋势,但这些统计量无法完全反应数据的特征,即使均值相等的数据集也存在无限种分布的可能,所以需要结合数据的离散程度。常用的可以反映数据离散程度的统计量如下:极差(Range) 极差也叫全距,指数据集中的最大值与最小值之差: 极差计算比较简单,能从一定程度上反映数据集的离散情况,但因为最大值和最小值都取的是极端,而没有考...
2019-03-01 23:26:42 3916
转载 Spark的StandAlone模式原理和安装、Spark-on-YARN的理解
Spark是一个内存迭代式运算框架,通过RDD来描述数据从哪里来,数据用那个算子计算,计算完的数据保存到哪里,RDD之间的依赖关系。他只是一个运算框架,和storm一样只做运算,不做存储。Spark程序可以运行在Yarn、standalone、mesos等平台上,standalone是Spark提供的一个分布式运行平台,分为master和worker两个角色。Standalone模式安装:...
2019-03-01 22:45:34 530
gephi 教程all-中文版
2018-04-19
基于J2EE的公交查询系统的设计与实现
2016-05-31
Android实现悬浮式顶部和底部标题栏效果仿百度贴吧
2015-12-20
android_AIDL
2015-10-15
Android基于蓝牙的计步器
2015-05-14
自定自定义音乐播放器项
2014-04-09
Android NDK开发(1)----- Java与C互相调用实例详解
2014-04-09
Android NDK中使用OpenGL
2014-04-09
方立勋《30天轻松掌握JavaWeb视频》笔记+源码
2014-03-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人