- 博客(43)
- 资源 (4)
- 问答 (3)
- 收藏
- 关注
原创 ML:线性回归
什么是线性回归?线性回归模型就是指因变量和自变量之间的关系是直线型的。类似于一元线性回归:给定一组数据集,它的线性组合函数为参考链接:线性回归预测法什么是损失函数?损失函数:衡量预测值与真实值之间的误差。一般采用均方误差,其中为线性回归求解的值,为实际值整体的均方误差为其中什么是优化函数?上面所说的线性函数以及损失函数,相对来说比较简单,这类预测求解的称...
2020-02-14 12:39:09 455
原创 BERT语言模型
1 Transformer原理文章:《Attention Is All You Need》模型架构图如下:transformer的结构由encoder编码和decoder解码组成。1.1 EncoderEncoder组件部分由一堆Layer(可以理解为编码器)构成(论文中是将6个Layer叠在一起)。Decoder解码组件部分也是由相同数量(与编码器对应)的解码器(deco...
2019-07-18 17:31:54 3567 1
原创 Attention原理
1 Attention 基本原理 神经网络中可以存储的信息量称为网络容量(Network Capacity)。一般来 讲,利用一组神经元来存储信息时,其存储容量和神经元的数量以及网络的复杂 度成正比。如果要存储越多的信息,神经元数量就要越多或者网络要越复杂,进 而导致神经网络的参数成倍地增加。 我们人脑的生物神经网络同样存在网络容量问题,人脑中的工作记忆大概 只有几...
2019-07-15 18:16:10 986
原创 循环和递归神经网络
1 循环神经网络 循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其它神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。和前馈神经网络相比,循环神经网络更加符合生物神经网络的结构。循环神经网络已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上。循环神经网络的参数学习可以通过...
2019-07-12 16:06:42 17962 1
原创 卷积神经网络
1 卷积运算 在泛函分析中,卷积是通过两个函数 f 和 g 生成第三个函数的数学运算,表征函数 f 和经过翻转,平移的 g 的乘积函数围成的曲边梯形的面积。 连续函数卷积: 设 f(x),g(x) 是 R 上两个可积函数,作积分: ...
2019-07-09 18:20:48 457
原创 神经网络基础
人工神经网络 人工神经网络(Artificial Neural Network,ANN)是指一系列受生物学和神 经学启发的数学模型。这些模型主要是通过对人脑的神经元网络进行抽象,构 建人工神经元,并按照一定拓扑结构来建立人工神经元之间的连接,来模拟生 物神经网络。在人工智能领域,人工神经网络也常常简称为神经网络(Neural Network,NN)或神经模型(Neural Mod...
2019-07-06 18:03:31 526
原创 文本表示
文本向量化是文本表示的一种重要方式,其中词袋 Bag of Words(BOW) 和词向量Word Embedding是最常见的两种类型。词袋模型: 是n-gram语法模型的特例1元模型。该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BOW使用一组无序的单词(words)来表达一段文字或一个文档。常见表示方法:one-hot...
2019-07-05 23:16:51 390
原创 文本分类
1、朴素贝叶斯原理:理论上,概率模型分类器是一个条件概率模型:独立变量C有若干类别,条件依赖于若干特征变量,但问题在于如果特征数量n的维度较大或者每个特征能取大量值时,基于概率模型列出概率表变得不现实。所以我们修改这个模型使之变得可行。 根据贝叶斯公式有以下式子:或者,这样表达比较简洁明了:其中,为先验概率,为后验概率;可以这么理解,再不知道需要预测的样本任...
2019-07-01 21:34:52 595
原创 文本特征选择
一、文本特征的特点1、特征项能够区分文章的不同2、特征项能够表达该文章的信息3、特征的个数选择不能太多二、特征选择的方法1、TF-IDFFrequency-Inverse Document Frequency:词频(TF)-逆文档频率(IDF),其中词频(TF)= 某个词在文章中的出现次数 / 文章的总词数逆文档频率(IDF)= log(语料库的文档总数 /...
2019-06-27 20:52:32 1984
原创 文本分词
1. 基本文本处理技能 英文分词,常以空格分词,中文分词较为复杂,常见方法有:正向最大、逆向最大、双向最大匹配法,这些方法是基于词典匹配而成。正向最大:从前往后取词,每次减一个字,直至词典命中或剩下1个单字。逆向最大:从后往前取词,每次减一个字,直至词典命中或剩下1个单子。双向最大匹配:正向最大与逆向最大两种算法都进行一遍分词,根据词的颗粒度越大越好且单字和非字...
2019-06-23 23:21:43 1463
原创 常见分类性能度量指标
常见分类性能度量指标准确率精确率召回率F1 值ROC曲线AUC曲线PR曲线常见分类性能度量指标再将这几个指标之前,先讲几个基础概念真正(True Positive , TP):被模型预测为正的正样本。假正(False Positive , FP):被模型预测为正的负样本。假正(False Negative , FN):被模型预测为负的正样本。真负(True ...
2019-06-21 16:29:46 4368 2
原创 IMDB 数据集探索
代码参考:https://www.tensorflow.org/tutorials/keras/basic_text_classificationhttps://my.oschina.net/u/3800567/blog/2887156代码存放:https://colab.research.google.com/drive/1vpo6LSRfvnUj3G4JGEKsqGCl6HGevI...
2019-06-21 15:42:34 3735 1
原创 Django: ConnectionAbortedError: [WinError 10053] An established connection was aborted by the softwa
管理员权限打开cmdC:\Windows\system32:chcp 1252来源于:https://stackoverflow.com/questions/54465300/django-connectionabortederror-winerror-10053-an-established-connection-was-a
2019-06-12 10:27:32 2593
原创 第三章 群体用户画像分析
用户画像作为目标用户的标签化,不仅仅用来分析目标用户,还应该包含用户间的关联分析,即群体用户画像分析。一个系统一般会选取3~6个用户群来代表系统可能会面向的用户,优先满足核心用户群的需求,进一步在不存在冲突的情况下,尽量满足次要用户群的需求。云模型 原始文献以及参考文献隶属云和隶属云发生器论正态云模型的普适性正态云模型的统计分析...
2019-04-23 14:23:49 5003
原创 Xgboost算法梳理
目录1 算法思想2 算法原理3 损失函数4 分裂结点算法5 正则化6 对缺失值处理7 优缺点8 应用场景9 sklearn参数 官方文档参数调整注意事项python 包介绍10 参考文章1 算法思想该算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得...
2019-04-10 21:48:11 248
原创 GBDT算法梳理
Table of Contents1 GBDT概述2 前向分布算法2.1 加法模型2.2 前向分布算法2.2.1 思想2.2.2 策略2.2.3 加法模型求解3 损失函数4 负梯度拟合5 回归6 GBDT分类6.1 二分类6.2 多分类7 正则化8 优缺点9 sklearn参数10 应用场景1 GBDT概述GBDT(Gr...
2019-04-07 21:44:35 208
原创 随机森林算法梳理
Content1、概念1.1 个体学习1.2 集成学习1.2.1 集成学习关键1.2.2 个体学习器1.2.3 结合策略1.3 集成方法1.3.1 Bagging1.3.2 Boosting1.3.3 Stacking1.3.4 其他集成方法2、随机森林2.1 随机森林思想2.2 优缺点2.3、应用以及推广3、sklearn参数1...
2019-04-03 16:08:05 856
原创 第一章 用户画像概述
《用户网络行为画像 大数据中的用户网络行为画像分析与内容推荐应用》 BY 牛温佳 刘吉强 石川等此书侧重针对视频的个性化推荐系统相关技术用户画像概述...
2019-04-02 14:03:40 357
翻译 推荐系统第3、4周笔记
项目:图书推荐系统介绍算法模型:基于Mahout推荐算法Mahout 是 Hadoop的子项目Mahout推荐的推荐系统引擎是模块化的,分为5个主要部分组成:数据模型、相似度算法、近邻算法、推荐算法、算法评分器算法模型:测试数据集:Rating.csv:行为数据——3列数据:用户ID、图书ID,用户对图书的评分——记录数:4000次的图书评分——用户数:200个...
2018-09-04 14:09:57 167
原创 国内算法竞赛网址收集
树愿:http://www.datadreams.org DC竞赛:http://www.dcjingsai.com/ 阿里天池:https://tianchi.aliyun.com/ 京东JDATA:https://jdata.jd.com/ DataFountain:https://www.datafountain.cn/ Kesci:https://www.kesci.com/ho...
2018-09-04 14:07:25 13965 3
原创 python 已知平行四边形三个点,求第四个点
import numpy as np#已知平行四边形三个点,求第四个点#计算两点之间的距离def CalcEuclideanDistance(point1,point2): vec1 = np.array(point1) vec2 = np.array(point2) distance = np.linalg.norm(vec1 - vec2) return...
2018-08-14 11:05:02 3887
原创 pyltp win10安装失败 fatal error C1083: Cannot open include file: 'iostream': No such file or directory
https://github.com/HIT-SCIR/pyltp/issues/94 在这个里边找到解决方法直接使用已编译好的whl文件,在https://www.lfd.uci.edu/~gohlke/pythonlibs/未找到此文件,图片上面直接给出了下载地址:pyltp-0.2.1-cp35-cp35m-win_amd64.whlpyltp-0.2.1-cp36-c...
2018-08-08 17:50:11 855
原创 gcc: error trying to exec 'cc1plus': execvp: 没有那个文件或目录 error: command 'gcc' failed with exit status
根据网上查找的答案,安装了相关的依赖包,问题还是存在:网上答案:yum install gcc libffi-devel python-devel openssl-devel因为要安装的pyltp,底层的语言是C++,所以还需要安装一个依赖包:yum install gcc-c++ ...
2018-08-08 14:16:06 2361
原创 opencv3.4+cmake8.0+VS2012 win10安装
参考opencv-python的英文文档 点击打开链接这边博客讲述安装配置opencv过程碰到的问题以及解决方式 点击打开链接需要工具:VS2012 , Cmake3.8:电脑是win10-64bit,Cmake3.6版本及以上才有 opencv3.4.1,建议下载exe文件,sourceCode的话,会缺少一个文件夹build,影响后期...
2018-04-25 14:33:24 701
原创 python pandas to_sql 中文乱码问题
使用DataFrame.to_sql,出现中文乱码的问题conn = create_engine('mysql+mysqldb://root:password@localhost:3306/databasename?charset=utf8') 解决不了中文问题我碰到的原因是因为数据库的默认编码不是utf-8,所以是直接修改数据库默认编码使用的是navicat,打开数据
2017-10-12 09:28:32 7756 2
原创 python pandas to_sql 的用法
网上使用pymysql或者MySQLdb,只能说是错误的,文档里边提供了说明跟一个例子说明:例子:所以pandasto_sql的用法如下:import pandas as pd from sqlalchemy import create_engine conn = create_engine('mysql+mysqldb://root:...
2017-10-11 16:43:50 49727 5
原创 python 负数时间戳转换/转换1970年之前的时间戳
import datetimetimestamp = -1893436000print datetime.datetime(1970, 1, 1) + datetime.timedelta(seconds=timestamp)
2017-08-09 14:00:08 6591
原创 python json串插入mysql
import pymysql as dbmm = {} #json串tsql = """INSERT INTO A1_enterprise(full_name,team_info) values('test2','{json}')"""sql = tsql.format(json=db.escape_string(mm))
2017-07-31 10:48:52 3348
原创 python mysql 1366, u"Incorrect string value: '\\xF0\\x9F\\x98\\x8A' for column 'content' at row 1"
comment['content'] = '傻大个数据的护额我' #随意写的一些内容#插入数据库的时候,会提示错误的字符值#comment['content']是插入数据库的值#修改后的代码points = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')points.sub(u'', content[y])comment['content'] = poi
2017-05-27 12:34:51 1014
原创 python去除script标签及里面的内容
soup = BeautifulSoup(content.content,'lxml')text = soup.find('div',{'class':'content'}).get_text().strip()print textvar ent_common_pic_1 = { "data": { "item": [ { "title": "《快乐大本营》杨紫", "img_url": "htt
2017-05-27 11:59:27 9639
原创 Linux whatis man man: nothing appropriate
CentOS 6.5版本Linux帮助文档man安装必须是在root用户下安装安装命令:yum install man 验证是否安装命令:man让它停止执行的命令是:q如果碰到输入:whatis man 出现以下情况,可以使用命令:makewhatis
2016-05-06 09:17:58 643
原创 WinPython-64-2.7安装MySQLdb包
环境:WinPython-64bit-2.7.10.3安装:MySQLdb个人建议不用使用带.exe或者.taz.zip安装,因为WinPython环境下Python不在注册表中关于这个问题,我是这么解决的:访问http://www.lfd.uci.edu/~gohlke/pythonlibs/#mysql-python下载这个MySQl-Python这个包然后打开
2016-05-01 10:37:06 2335
python:maximum recursion depth深度递归
2016-06-02
python写的算法与已上线的JavaWeb项目的结合
2016-05-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人