推荐系统(业务侧)小结 本文分别从一个业务人员、一个技术人员、一个普通用户的角度来聊聊推荐系统/场景,本文分为三部分来阐述一、业务人员如果看待推荐场景?如果更好地使用推荐来反哺业务?二、推荐系统的基本框架是什么?技术人员在构建推荐系统的过程中,常用的推荐算法有哪些?...
策略产品函数方法论——评估 在机器学习常用性能指标及sklearn中的模型评估一文中已对相对宏观的模型评价指标进行了描述,并给出了在sklearn中具体的实现方法,主要包括准确率、精确率、召回率,ROC曲线,那在策略产品工作中,如何进行业务函数的评估?1. 评估前的样本切分...
策略产品函数方法论——特征 题记:本文是结合个人学习工作经历对《策略产品经理——模型与方法论》一书的消化笔记,仅做记录,无其他用途,侵删。在应用机器学习算法模型解决业务问题的场景下,相较于算法工程师关注的特征处理及特征工程,策略产品工作更侧重于对有效特征的选择,以下正文内容分为两个主要部分:一是特征选择的原则,二是特征选择的方法。1. 特征选择的原则1.1 注意特征的时效性,不使用未来信息作为模型预测的特征举个栗子,对于内容风控问题,用户对于内容的投诉动作能否作为输入特征?当然不能,原因有二:一,这类特征是在业务当前场
人物关系抽取——基于特征工程 本文代码,不得转载。# -*- coding: utf-8 -*-# Author: lx# extract features from the textimport pandas as pdimport numpy as npfrom text1 import CountVectorizerfrom sklearn.feature_extraction.text import...
使用NLTK+StanfordNLP进行文本特征提取 文章为自己的实践记录及总结,多有疏忽,恐有错误......文本特征提取是基于特征向量的自然语言处理方法的基本技术,常用的提取自文本的特征主要包括词汇特征、位置特征、句法特征、语义特征。其中,词汇特征包括词性、上下文词汇、命名实体等;位置特征如命名实体之间的间隔距离;句法特征提取主要包括句法分析及依存句法分析。常用的特征获取工具有StanfordNLP和LTP(哈工大社会计算与信息检索研究中心研...
用sklearn进行特征提取及数值转换 对自己目前常用的几种特征提取方法做个简要总结。1,将文本数据转化为特征向量(其中CountVectorizer只考虑词汇在文本中出现的频率)from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text import TfidfTransformerwor...
Neo4j(二):节点和关系文件导入 首先,在Neo4j中打开Database所在的目录文件夹,在目录下的import文件夹下存放需要载入的csv文件(因为Neo4j默认是从打开地址目录下的import中读出,所以需要在此目录下创建csv文件,否则在Neo4j中执行载入命令会出现找不到文件的情况。)csv节点文件的载入下面是结点文件中的内容,主要字段包括id,name,position在Neo4j的命令行输入并执行以下...
TensorFlow学习(三):CNN-Relation-Extraction cnn_relation_extraction部分记录import tensorflow as tfimport numpy as npimport osimport datetimeimport timefrom cnn_relation_extraction_master.text_cnn import TextCNNfrom cnn_relation_extraction_...
sklearn: OneVsRestClassifier实现多分类 + Grid_Search获取模型的最佳参数 一,sklearn分类器单一分类器 & 集成分类器 https://www.cnblogs.com/hhh5460/p/5132203.html使用sklearn https://www.jianshu.com/p/516f009c0875sklearn通过OneVsRestClassifier实现svm.SVC的多分类 https://blog.csdn.net/xiaodo...
损失函数 loss function 总结(转) 目标函数,或称损失函数,是网络中的性能函数,也是编译一个模型必须的两个参数之一。由于损失函数种类众多,下面以keras官网手册的为例。在官方keras.io里面,有如下资料: mean_squared_error或mse mean_absolute_error或mae mean_absolute_percentage_error或mape mean_squa...
机器学习常用性能指标及sklearn中的模型评估 一,机器学习常用性能指标总结(转载并稍作修改和补充)在机器学习中,性能指标(Metrics)是衡量一个模型好坏的关键,通过衡量模型输出y_predict 和 y_true之间的某种"距离"得出的。性能指标往往是我们做模型时的最终目标,如准确率,召回率,敏感度等等,但是性能指标常常因为不可微分,无法作为优化的loss函数,因此采用如cross-entropy, rmse等“距离”可微函数...
【转载】RSS原理、创建及使用 最近需要接触RSS Feed,知其然还要知其所以然。https://www.xul.fr/en-xml-rss.html#spec本文转自RSS原理、创建及使用——Denis Sureau很郁闷的是Google Reader倒了才开始使用RSS阅读,InoReader是一个不错的替代。对于RSS的原理想要有个了解,但是网上的资料说得不是很清晰。有一篇CSDN的RSS原理和实现博文也不错...
分类前之数据预处理 之前在情感分析方法之nltk情感分析器和SVM分类器(二)一文中的第二部分,仅仅记录了最后一步分类器的处理,现在想要把前四步也记录下来。1. 原始语料的规整# -*- coding: utf-8 -*-# 获取正负向语料库与停用词词典# 将原始数据规整到一个txt文件中import os# 文件夹及结果文件的存储路径path = r"D:/file_download/Bai...
知识图谱之知识表示 先上两个狠全面的综述或者叫总结:《知识表示学习研究进展》 基于翻译模型(Trans系列)的知识表示学习然后是清华大学开源OpenKE:知识表示学习平台“表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习主要是面向知识图谱中的实体和关系进行表示学习。使用建模方法将实体和向量表示在低维稠密向量空间中,然后进行计算和推理。”知识表示的几个代表模型:距离模型、单层神经网络...
知识图谱入门 本文转自刘知远新浪博客2.1 什么是知识图谱在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具。当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页。从诞生之日起,搜索引擎就是这样的模式。直到2012年5月,搜索引擎巨头谷歌在它的搜索页面中首次引入“知识图谱”:用户除了得到搜索网页链接外,还将看到与查询词有关的更加智能化的答案。如图2.1所示,当用户输入“Marie Curi...
Tensorflow学习(二):文本分类 点击打开链接一点击打开链接二TensorFlow如何工作?什么是机器学习模型,什么是神经网络?,神经网络如何学习,如何处理数据并将其传递给神经网络输入,如何运行模型并获得预测结果?用神经网络和TensorFlow进行文本分类# -*- coding:utf-8 -*-# 用神经网络和TensorFlow分类文本import numpy as npimport tensorflow as t...
Tensorflow学习(一) 一,了解Tensorflow安装:支持python2和3,直接pip install tensorflow即可(win10)http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/word2vec.html中文文档:http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030...