CangHaier-CSDN博客

原创用户画像构建流程及思路总结

基本思路：以业务为基础，对业务数据做处理主要问题：1、标签如何构建？事实标签、统计标签、预测标签2、涉及的机器学习问题分类、聚类、文本处理、等3、权重涉及标签本身权重*行为权重*比例*时效 ...

2018-08-12 13:55:19 5354

原创 RNN学习

资源一：参考字符预测的源码和理论讲解源代码：https://github.com/weixsong/min-char-rnn理论讲解：https://blog.csdn.net/watkinsong/article/details/51773524困惑一：隐藏层的每个单元是一个向量还是只是一个二值神经元？答案：只是一个二值神经元，并不是一个向量，所有的隐藏层神经元构成一个向量 ...

2018-08-07 23:31:28 553

原创常见推荐算法的总结

一、基于内容的推荐通过对商品本身的特征抽取、建立相似性列表、再利用用户对商品的反馈（购物车、收藏），进行推荐优点：可解释、用户独立性强缺点：难以挖掘用户的隐藏兴趣、个性化低、对新用户存在冷启动问题、特征抽取工作量大、困难二、基于用户特征的推荐——人口统计利用用户的统计特征，如性别、年龄、职业等缺点：难以挖掘用户的真正的需求、个性化程度低————以上两种都是利用商品、人的...

2018-08-04 14:19:24 1123

原创今日头条算法原理（全）

个人总结：今日头条新闻资讯类推荐，主要使用基于资讯内容和要用户标签进行的推荐，同时也使用了协同过滤算法，因为资讯类的时效性，存在冷启动的问题，对文本语义特征的挖掘和用户标签的挖掘，可以解决这个问题，今日头条通过不同算法组合，构建了推荐模型，和召回策略，对一个用户，先用其兴趣等标签，过滤候选资讯，然后对召回的资讯调用推荐模型计算得分进行推荐。今日头条的文本特征分为语义挖掘和隐式的语义...

2018-08-04 11:05:19 8760

原创 Java学习资源的整理

嘟嘟博客博客园的博客锁多线程集合数据结构和算法算法总结leetcode学习数据库原理————后续补充完成

2018-07-28 00:16:17 273

原创 NLP的第三方包的学习简单总结

中文：jiebahanLP哈工大LTP 英语stanfordNLPNLTK——后续补充

2018-07-28 00:14:18 861

原创 word2vec总结

词向量——对应one——hot概率语言模型——神经网络概率语言模型词向量——通过神经网络语言模型得到word2vec，对概率语言模型的实现。分为CBOW和skipGram实现方式分Huffman树和负采样+逻辑斯蒂回归实现 ————后续补充完成...

2018-07-28 00:12:39 316

原创连续数值变量的离散化、哑变量

#还是Age字段，一般连续数据要做离散化#某些分类数据，为了可以更好的使用，可以转换为哑变量使用##连续数据离散化的好处：#1）有些算法的输入要求必须是离散化的数据，如贝叶斯和树模型#2）离散化可以对连续数据的异常点进行处理，可以提高鲁棒性#3）离散化后计算速度更快#4）构建哑变量可以增加模型的灵活性，解耦很多数据特征##另外构建哑变量，对一个类别类型，如果完全没有比较关系，则可以构...

2018-07-28 00:10:21 3187

特征选择是重要的数据预处理技术原因：避免维度爆炸，降低学习难度处理高维数据的两大主流技术：特征选择，降维评价特征子集的好坏：信息增益常用的特征选择方法有三种：过滤式选择：——特征选择有后续机器学习无关，先对数据集进行特征选择，再进行机器学习包裹式选择——将最终的使用的机器学习的性能作为特征子集的评价标准嵌入式选择——将特征选择与机器学习的训练过程融为一体——如：L1正则化——L1范数处理能进...

2018-06-10 21:15:14 488

原创模型评估

模型评估一、回归任务最常用的性能度量是均方误差二、分类任务常用的性能度量指标1）错误率：分类错误的占总样本的比例精度分类正确的占总样本的比例错误率+精度 = 1 2）查准率Precision——分类为正的样本中真正的正样本的比例查全率Recall——在所有正样本中被正确分为正样本的样本的比例3）P-R曲线——查准率与查全率关系曲线绘图方式：对学习器的概率结果排序，按照概率从大到小，逐个把...

2018-06-10 20:37:53 572

原创降维方法总结

降维方法总结对降维效果的评价：比较降维前后学习器的性能低维可以通过可视化技术来判断降维的效果分类一、低维嵌入代表：MDS算法基本思想：降维的一个基本思想是，降维前后保证样本点的距离相等，即：原始空间中的距离在低维空间得以保持MDS算法：1）通过距离不变的原理，推导出由高维空间距离矩阵D计算低维空间样本的内积矩阵B，2）对B做特征值分解3）根据特征值分解的结果，计算出样本的低维空间坐标——可以理...

2018-06-10 13:58:13 3885

原创半监督学习总结

半监督学习：部分样本有标记，但是大部分样本无标记解决办法：主动学习+专家知识Or 半监督学习半监督学习应用需求非常强烈，因为大量数据都是未标记的，标记成本高半监督学习的基本假设：聚类假设：即假设数据存在簇结构Or 流形假设半监督学习方法：一、生成式方法：假设存在潜在模型，未标记的分类时缺失的参数，通过EM算法的极大似然估计求解——假设的模型是关键二、半监督SVM对于SVM，试图找到最大间隔划...

2018-06-10 12:52:47 2076

原创概率图模型

概率图模型概率图模型——用图来表示变量间的相关关系的概率模型分类：概率图模型根据边的性质的不同可分为两类：有向图模型或贝叶斯网：使用有向无环图表示变量间的依赖关系无向图模型或马尔可夫网：使用无向图表示变量间的依赖关系一、隐马尔科夫模型隐马尔科夫模型——结构最简单的动态贝叶斯网（无后效性）主要用于时序的数据建模，在语音识别，自然语言处理等领域有广泛应用模型：对一个状态，不能直接观察其状态值，但是可...

2018-06-10 12:37:55 1345

原创增强学习总结

增强学习总结增强学习概念：增强学习关注的是智能体如何在环境中采取一系列行为，从而获得最大的累积回报。通过增强学习，一个智能体应该知道在什么状态下应该采取什么行为。强化学习，就是根据奖励，判断在相应的状态下，应该做的动作——从状态到动作的映射就是学习策略增强学习是机器学习中一个非常活跃且有趣的领域，相比其他学习方法，增强学习更接近生物学习的本质，因此有望获得更高的智能，这一点在棋类游戏中已经得到体现...

2018-06-10 00:17:58 874

原创聚类总结

一、基本概念聚类：对无标签的数据，按照其内在规律分组概念：聚类，簇，用途：1）数据内在的分布结构的探索 2）更复杂的问题的前驱，如分类等其他问题性能度量：好的聚类结果：簇内相似度高，簇间相似度低外部指标：与参考模型对比，（Jaccard系数，FM指数，Rand指数）外部指标类似于查准率与查全率等指标的意思内部指标：直接考察聚类结果（样本间的距离，簇的中心点，DB指数，Dunn指数）内部指标，主要是...

2018-06-08 22:18:25 1389

原创提升方法（集成学习）

集成学习总结：思想：由多个分类器组合成一个性能更好的分类器。每个分类器应该好而不同，即本身准确率要足够高，并且之间要有多样性。集成学习研究的核心：如何产生好而不同的分类器？既满足准确性又满足多样性分类：1）序列化方法：个体之间存在强依赖关系，必须串行生成。boosting，是利用不同模型的相加，构成一个更好的模型，求取模型一般都采用序列化方法，后面的模型依据前面的模型。boosting——学习机制...

2018-06-08 21:55:07 495

原创 tensorflow实现简单的神经网络

参考曹健老师的tensorFlow公开课第三节的代码主要是介绍了构建神经网络的流程代码简单，但是流程值得记住特别是关键的函数需要记忆#coding:utf-8#1、导入模块、生成数据集import tensorflow as tfimport numpy as npBATCH_SIZE = 8seed = 23455#基于see产生随机数rng = np.random.Rand...

2018-05-30 00:54:18 323

原创机器学习概述

2018-04-07 13:27:57 227

转载 Sklearn包含的常用算法

原文链接https://blog.csdn.net/hzp123123/article/details/77744420说明文章列出了Sklearn模块中常用的算法及调用方法，部分生僻的未列出（对我来说算生僻的），如果有写的不对的地方请指出。参考资料来自sklearn官方网站：http://scikit-learn.org/stable/总的来说，Sklearn可实现的函数或功能可分为以下几个方...

2018-04-06 21:52:54 689

转载机器学习常见算法简单汇总

[+]原文链接https://blog.csdn.net/yimingsilence/article/details/72724401转载观摩学习机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法，以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人们都是，很多算法是一类算法，而有些算法又是从其他算...

2018-04-06 21:06:01 288

转载交叉熵代价函数(损失函数)及其求导推导

转载自https://blog.csdn.net/jasonzzj/article/details/52017438前言交叉熵损失函数交叉熵损失函数的求导前言说明：本文只讨论Logistic回归的交叉熵，对Softmax回归的交叉熵类似。首先，我们二话不说，先放出交叉熵的公式： J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))),J(θ)...

2018-04-06 20:44:36 347

CangHaier的博客