自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 资源 (4)
  • 问答 (3)
  • 收藏
  • 关注

原创 ML:线性回归

什么是线性回归?线性回归模型就是指因变量和自变量之间的关系是直线型的。类似于一元线性回归:给定一组数据集,它的线性组合函数为参考链接:线性回归预测法什么是损失函数?损失函数:衡量预测值与真实值之间的误差。一般采用均方误差,其中为线性回归求解的值,为实际值整体的均方误差为其中什么是优化函数?上面所说的线性函数以及损失函数,相对来说比较简单,这类预测求解的称...

2020-02-14 12:39:09 430

原创 BERT语言模型

1 Transformer原理文章:《Attention Is All You Need》模型架构图如下:transformer的结构由encoder编码和decoder解码组成。1.1 EncoderEncoder组件部分由一堆Layer(可以理解为编码器)构成(论文中是将6个Layer叠在一起)。Decoder解码组件部分也是由相同数量(与编码器对应)的解码器(deco...

2019-07-18 17:31:54 3515 1

原创 Attention原理

1 Attention 基本原理 神经网络中可以存储的信息量称为网络容量(Network Capacity)。一般来 讲,利用一组神经元来存储信息时,其存储容量和神经元的数量以及网络的复杂 度成正比。如果要存储越多的信息,神经元数量就要越多或者网络要越复杂,进 而导致神经网络的参数成倍地增加。 我们人脑的生物神经网络同样存在网络容量问题,人脑中的工作记忆大概 只有几...

2019-07-15 18:16:10 954

原创 循环和递归神经网络

1 循环神经网络 循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其它神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。和前馈神经网络相比,循环神经网络更加符合生物神经网络的结构。循环神经网络已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上。循环神经网络的参数学习可以通过...

2019-07-12 16:06:42 17419 1

原创 卷积神经网络

1 卷积运算 在泛函分析中,卷积是通过两个函数 f 和 g 生成第三个函数的数学运算,表征函数 f 和经过翻转,平移的 g 的乘积函数围成的曲边梯形的面积。 连续函数卷积: 设 f(x),g(x) 是 R 上两个可积函数,作积分: ...

2019-07-09 18:20:48 410

原创 神经网络基础

人工神经网络 人工神经网络(Artificial Neural Network,ANN)是指一系列受生物学和神 经学启发的数学模型。这些模型主要是通过对人脑的神经元网络进行抽象,构 建人工神经元,并按照一定拓扑结构来建立人工神经元之间的连接,来模拟生 物神经网络。在人工智能领域,人工神经网络也常常简称为神经网络(Neural Network,NN)或神经模型(Neural Mod...

2019-07-06 18:03:31 504

原创 文本表示

文本向量化是文本表示的一种重要方式,其中词袋 Bag of Words(BOW) 和词向量Word Embedding是最常见的两种类型。词袋模型: 是n-gram语法模型的特例1元模型。该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BOW使用一组无序的单词(words)来表达一段文字或一个文档。常见表示方法:one-hot...

2019-07-05 23:16:51 356

原创 文本分类

1、朴素贝叶斯原理:理论上,概率模型分类器是一个条件概率模型:独立变量C有若干类别,条件依赖于若干特征变量,但问题在于如果特征数量n的维度较大或者每个特征能取大量值时,基于概率模型列出概率表变得不现实。所以我们修改这个模型使之变得可行。 根据贝叶斯公式有以下式子:或者,这样表达比较简洁明了:其中,为先验概率,为后验概率;可以这么理解,再不知道需要预测的样本任...

2019-07-01 21:34:52 575

原创 文本特征选择

一、文本特征的特点1、特征项能够区分文章的不同2、特征项能够表达该文章的信息3、特征的个数选择不能太多二、特征选择的方法1、TF-IDFFrequency-Inverse Document Frequency:词频(TF)-逆文档频率(IDF),其中词频(TF)= 某个词在文章中的出现次数 / 文章的总词数逆文档频率(IDF)= log(语料库的文档总数 /...

2019-06-27 20:52:32 1952

原创 文本分词

1. 基本文本处理技能 英文分词,常以空格分词,中文分词较为复杂,常见方法有:正向最大、逆向最大、双向最大匹配法,这些方法是基于词典匹配而成。正向最大:从前往后取词,每次减一个字,直至词典命中或剩下1个单字。逆向最大:从后往前取词,每次减一个字,直至词典命中或剩下1个单子。双向最大匹配:正向最大与逆向最大两种算法都进行一遍分词,根据词的颗粒度越大越好且单字和非字...

2019-06-23 23:21:43 1434

原创 常见分类性能度量指标

常见分类性能度量指标准确率精确率召回率F1 值ROC曲线AUC曲线PR曲线常见分类性能度量指标再将这几个指标之前,先讲几个基础概念真正(True Positive , TP):被模型预测为正的正样本。假正(False Positive , FP):被模型预测为正的负样本。假正(False Negative , FN):被模型预测为负的正样本。真负(True ...

2019-06-21 16:29:46 4332 2

原创 IMDB 数据集探索

代码参考:https://www.tensorflow.org/tutorials/keras/basic_text_classificationhttps://my.oschina.net/u/3800567/blog/2887156代码存放:https://colab.research.google.com/drive/1vpo6LSRfvnUj3G4JGEKsqGCl6HGevI...

2019-06-21 15:42:34 3689 1

原创 Django: ConnectionAbortedError: [WinError 10053] An established connection was aborted by the softwa

管理员权限打开cmdC:\Windows\system32:chcp 1252来源于:https://stackoverflow.com/questions/54465300/django-connectionabortederror-winerror-10053-an-established-connection-was-a

2019-06-12 10:27:32 2566

原创 第九章 混合推荐方法

2019-04-27 17:04:09 493

原创 第八章 基于知识的推荐方法

2019-04-27 14:15:09 874

原创 第七章 基于内容的推荐方法

基础CB推荐算法流程图

2019-04-27 10:19:38 548

原创 第六章 协同过滤推荐算法

2019-04-27 10:18:33 206

原创 第五章 视频推荐概述

2019-04-24 16:18:32 255

原创 第四章 用户画像管理

2019-04-23 17:36:07 935

原创 第三章 群体用户画像分析

用户画像作为目标用户的标签化,不仅仅用来分析目标用户,还应该包含用户间的关联分析,即群体用户画像分析。一个系统一般会选取3~6个用户群来代表系统可能会面向的用户,优先满足核心用户群的需求,进一步在不存在冲突的情况下,尽量满足次要用户群的需求。云模型 原始文献以及参考文献隶属云和隶属云发生器论正态云模型的普适性正态云模型的统计分析...

2019-04-23 14:23:49 4959

原创 Xgboost算法梳理

目录1 算法思想2 算法原理3 损失函数4 分裂结点算法5 正则化6 对缺失值处理7 优缺点8 应用场景9 sklearn参数 官方文档参数调整注意事项python 包介绍10 参考文章1 算法思想该算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得...

2019-04-10 21:48:11 221

原创 GBDT算法梳理

Table of Contents1 GBDT概述2 前向分布算法2.1 加法模型2.2 前向分布算法2.2.1 思想2.2.2 策略2.2.3 加法模型求解3 损失函数4 负梯度拟合5 回归6 GBDT分类6.1 二分类6.2 多分类7 正则化8 优缺点9 sklearn参数10 应用场景1 GBDT概述GBDT(Gr...

2019-04-07 21:44:35 196

原创 随机森林算法梳理

Content1、概念1.1 个体学习1.2 集成学习1.2.1 集成学习关键1.2.2 个体学习器1.2.3 结合策略1.3 集成方法1.3.1 Bagging1.3.2 Boosting1.3.3 Stacking1.3.4 其他集成方法2、随机森林2.1 随机森林思想2.2 优缺点2.3、应用以及推广3、sklearn参数1...

2019-04-03 16:08:05 824

原创 第二章 用户画像建模

2019-04-02 16:06:00 274

原创 第一章 用户画像概述

《用户网络行为画像 大数据中的用户网络行为画像分析与内容推荐应用》 BY 牛温佳 刘吉强 石川等此书侧重针对视频的个性化推荐系统相关技术用户画像概述...

2019-04-02 14:03:40 341

翻译 推荐系统第3、4周笔记

项目:图书推荐系统介绍算法模型:基于Mahout推荐算法Mahout 是 Hadoop的子项目Mahout推荐的推荐系统引擎是模块化的,分为5个主要部分组成:数据模型、相似度算法、近邻算法、推荐算法、算法评分器算法模型:测试数据集:Rating.csv:行为数据——3列数据:用户ID、图书ID,用户对图书的评分——记录数:4000次的图书评分——用户数:200个...

2018-09-04 14:09:57 154

原创 国内算法竞赛网址收集

树愿:http://www.datadreams.org DC竞赛:http://www.dcjingsai.com/ 阿里天池:https://tianchi.aliyun.com/ 京东JDATA:https://jdata.jd.com/ DataFountain:https://www.datafountain.cn/ Kesci:https://www.kesci.com/ho...

2018-09-04 14:07:25 13860 3

原创 一个学习机器学习的好网站

http://www.apachecn.org/

2018-08-23 09:38:17 3444

原创 python 已知平行四边形三个点,求第四个点

import numpy as np#已知平行四边形三个点,求第四个点#计算两点之间的距离def CalcEuclideanDistance(point1,point2): vec1 = np.array(point1) vec2 = np.array(point2) distance = np.linalg.norm(vec1 - vec2) return...

2018-08-14 11:05:02 3798

原创 pyltp win10安装失败 fatal error C1083: Cannot open include file: 'iostream': No such file or directory

https://github.com/HIT-SCIR/pyltp/issues/94  在这个里边找到解决方法直接使用已编译好的whl文件,在https://www.lfd.uci.edu/~gohlke/pythonlibs/未找到此文件,图片上面直接给出了下载地址:pyltp-0.2.1-cp35-cp35m-win_amd64.whlpyltp-0.2.1-cp36-c...

2018-08-08 17:50:11 822

原创 gcc: error trying to exec 'cc1plus': execvp: 没有那个文件或目录 error: command 'gcc' failed with exit status

根据网上查找的答案,安装了相关的依赖包,问题还是存在:网上答案:yum install gcc libffi-devel python-devel openssl-devel因为要安装的pyltp,底层的语言是C++,所以还需要安装一个依赖包:yum install gcc-c++ ...

2018-08-08 14:16:06 2326

原创 opencv3.4+cmake8.0+VS2012 win10安装

参考opencv-python的英文文档 点击打开链接这边博客讲述安装配置opencv过程碰到的问题以及解决方式 点击打开链接需要工具:VS2012 ,                Cmake3.8:电脑是win10-64bit,Cmake3.6版本及以上才有                opencv3.4.1,建议下载exe文件,sourceCode的话,会缺少一个文件夹build,影响后期...

2018-04-25 14:33:24 682

原创 python pandas to_sql 中文乱码问题

使用DataFrame.to_sql,出现中文乱码的问题conn = create_engine('mysql+mysqldb://root:password@localhost:3306/databasename?charset=utf8')   解决不了中文问题我碰到的原因是因为数据库的默认编码不是utf-8,所以是直接修改数据库默认编码使用的是navicat,打开数据

2017-10-12 09:28:32 7649 2

原创 python pandas to_sql 的用法

网上使用pymysql或者MySQLdb,只能说是错误的,文档里边提供了说明跟一个例子说明:例子:所以pandasto_sql的用法如下:import pandas as pd from sqlalchemy import create_engine conn = create_engine('mysql+mysqldb://root:...

2017-10-11 16:43:50 49589 5

原创 python 负数时间戳转换/转换1970年之前的时间戳

import datetimetimestamp = -1893436000print datetime.datetime(1970, 1, 1) + datetime.timedelta(seconds=timestamp)

2017-08-09 14:00:08 6468

原创 python json串插入mysql

import pymysql as dbmm = {} #json串tsql = """INSERT INTO A1_enterprise(full_name,team_info) values('test2','{json}')"""sql = tsql.format(json=db.escape_string(mm))

2017-07-31 10:48:52 3329

原创 python mysql 1366, u"Incorrect string value: '\\xF0\\x9F\\x98\\x8A' for column 'content' at row 1"

comment['content'] = '傻大个数据的护额我' #随意写的一些内容#插入数据库的时候,会提示错误的字符值#comment['content']是插入数据库的值#修改后的代码points = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')points.sub(u'', content[y])comment['content'] = poi

2017-05-27 12:34:51 992

原创 python去除script标签及里面的内容

soup = BeautifulSoup(content.content,'lxml')text = soup.find('div',{'class':'content'}).get_text().strip()print textvar ent_common_pic_1 = { "data": { "item": [ { "title": "《快乐大本营》杨紫", "img_url": "htt

2017-05-27 11:59:27 9591

原创 Linux whatis man man: nothing appropriate

CentOS 6.5版本Linux帮助文档man安装必须是在root用户下安装安装命令:yum install man 验证是否安装命令:man让它停止执行的命令是:q如果碰到输入:whatis man 出现以下情况,可以使用命令:makewhatis

2016-05-06 09:17:58 600

原创 WinPython-64-2.7安装MySQLdb包

环境:WinPython-64bit-2.7.10.3安装:MySQLdb个人建议不用使用带.exe或者.taz.zip安装,因为WinPython环境下Python不在注册表中关于这个问题,我是这么解决的:访问http://www.lfd.uci.edu/~gohlke/pythonlibs/#mysql-python下载这个MySQl-Python这个包然后打开

2016-05-01 10:37:06 2316

信息熵概念与公式表及在NLP上的含义

信息熵概念与公式表及在NLP上的含义:包含名称、节点、信息论含义、NLP含义、公式

2018-08-09

特征工程-特征选择思维导图

特征工程-特征选择思维导图:主要从常见搜索算法以及经典三刀来展示。这个是自己归纳的,有什么不对的,欢迎指出来

2018-08-03

特征工程-数据预处理思维导图

特征工程-数据预处理思维导图:从获取数据、数据探索、数据预处理与清洗三个大方面。这个是自己归纳的一个,有什么不对的,欢迎指出来

2018-08-03

2016年统计用区划代码和城乡划分代码

2016年统计用区划代码和城乡划分代码,来源统计局,更新时间2017-05-16

2018-03-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除