机器学习
文章平均质量分 59
loong_XL
这个作者很懒,什么都没留下…
展开
-
神经网络 梯度与神经元参数w、b关系;梯度与导数关系;梯度消失与爆炸
∂w∂cost参考:https://blog.csdn.net/weixin_44259490/article/details/90295146。原创 2024-03-08 09:24:13 · 1470 阅读 · 0 评论 -
sparse transformer 常见稀疏注意力
参考:https://zhuanlan.zhihu.com/p/259591644a、transformer原始的 , Q · K^T,其中 K^T 表示 K 的转置b、每个token与前后三个做自注意力计算c、每个token与前后三个做自注意力计算,但这三个有间隔,就是比如第一个token看右面3,5,7d、全局token是第一二个token看所有的token,3及后面的token只看· K^T 矩阵的1、2token;sliding划窗见ba、全局token是第一二个token看所有的toke原创 2024-03-03 18:15:58 · 399 阅读 · 4 评论 -
BERT 词向量理解及训练更新
在预训练阶段中,词向量是在不断更新的,而在fine-tuning阶段中,词向量是固定不变的。理解就是输入字x,1个神经元对应了多个神经元,权重(即是这个x的词向量)就是1对多的连接层上的权重,相当于是个线性函数的连接层参数。在学习过程中,词表中每个词的词向量是通过输入的语料来学习的。假设输入层有1个神经元x=2,W是1*3的矩阵 [[1, 2, 3]],b是3维的向量 [1, 1, 1]。训练后的词向量矩阵向量变化,因为只有1,2,3,4行测试数据,所以只更新的是这几行的向量。那么 y = Wx + b。原创 2023-01-15 08:05:11 · 3283 阅读 · 0 评论 -
模型测试集上准确率(ACC)、精确率precision、召回率recall、AUC评估指标计算
TP: 预测为正,实际为正TN: 预测为负,实际为负FP:预测为正,实际为负FN: 预测为负,实际为正准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN)精确率(precision) = TP/(TP+FP)召回率(recall) = TP/(TP+FN)f-score = 精确率 * 召回率 * 2 / (精确率 + 召回率)——————准确率、auc比较常用—————————ACC 准确率acc计算要y_predict预测结果为整数int.原创 2022-04-01 09:31:40 · 11322 阅读 · 0 评论 -
pyspark config设置、增加配置、限制_success文件生成;spark-submit 集群提交参数
1、pyspark增加config设置java heap错误增加内存2、spark-submit 参数参考:https://www.cnblogs.com/weiweifeng/p/8073553.htmlnohup spark-submit --class com.tcl.video.search.recommend.SparkQueryApplication --executor-memory 6G --num-executors 6 --master yar原创 2021-11-18 15:52:02 · 3483 阅读 · 0 评论 -
docker 打包flask tensorflow模型镜像;更新、上传阿里云仓库及拉取服务;文件挂载
参考:https://zhuanlan.zhihu.com/p/602866851、创建一个文件夹 ,比如a_docker2、进入a_docker创建三个文件3、requirements.txt 文件bert4keras==0.9.9Flask==1.1.14、Dockfile 文件FROM ubuntu:16.04FROM python:3.6.5RUN apt-get update -y && \ apt-get install -y python-p原创 2021-07-19 16:02:34 · 849 阅读 · 1 评论 -
docker 安装spark
docker 安装spark参考:https://github.com/big-data-europe/docker-spark1、创建个文件夹docker-spark2、进入该文件件下创建个docker-compose.yml文件version: '3'services: spark-master: image: bde2020/spark-master:3.1.1-hadoop3.2 container_name: spark-master ports:原创 2021-06-30 16:23:35 · 900 阅读 · 0 评论 -
xgb、keras模型增量更新再训练
xgb增量训练import xgboost as xgbfrom sklearn.datasets import load_digits # 训练数据 xgb_params_01 = {}xgb_params_02 = {'process_type':'update', 'updater':'refresh', 'refresh_leaf':True} digits_2class = load_digits(2)X_2cl原创 2021-03-31 10:36:46 · 1977 阅读 · 0 评论 -
xgboost 特征 模型 调参 保存 部署 推理
1、特征主要就是归一化标准化,对离散和连续性特征连续:from sklearn.preprocessing import StandardScaler scaler1 = StandardScaler() datas_666["star_stander"] = scaler1.fit_transform(datas_666['score'].values.reshape(-1, 1)) from sklearn import preprocessingmaxmin = preproce原创 2021-03-05 09:58:02 · 3063 阅读 · 5 评论 -
Elasticsearch7 ltr插件使用说明
参考:github demo:https://github.com/o19s/elasticsearch-learning-to-rank/tree/es_7_6_2/demo文档:https://elasticsearch-learning-to-rank.readthedocs.io/1、 正常测试步骤安装demo流程就行,这里主要讲特征load 样式和collect加载成libsvm格式步骤:1)先执行load_features.py,这是获取构建需要的具体那些特征(通过加载1,2,3,4j原创 2021-01-15 17:55:13 · 1443 阅读 · 2 评论 -
LTR pairwise RankNet(map,ndcg)
参考:https://zhuanlan.zhihu.com/p/66497129https://www.bilibili.com/video/BV1G54y1q7qx?from=search&seid=6835167430506218572map,ndcg 搜索排序的主要评估指标:ap 主要考虑相关模型结果正相关的精确率加和平均dcg 主要考虑模型排序结果的z真label正相关与位置关系负相关的结果import numpy as npimport torchimport to原创 2020-12-04 11:25:31 · 496 阅读 · 1 评论 -
sklearn TfidfVectorizer、CountVectorizer词袋、 TfidfTransformer词频模型区别及词表、idf获取、cosine计算、bm25相关性
TfidfVectorizer相当于把CountVectorizer, TfidfTransformer合并起来,直接生成tfidf值参数参考:https://blog.csdn.net/blmoistawinde/article/details/80816179import pandas as pdfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.feature_extraction.text impo原创 2020-09-07 16:04:29 · 1380 阅读 · 0 评论 -
grpc python使用
gRPC 是Google开源的一款高性能的 RPC 框架,它基于 ProtoBuf 序列化协议进行开发,支持多种开发语言(Golang、Python、Java、C/C++等)。gRPC 提供了一种简单的方法来定义服务,同时客户端可以充分利用 HTTP/2 stream 的特性,从而有助于节省带宽、降低 TCP 的连接次数、节省CPU的使用等https://github.com/grpc/grpc参考:https://zhuanlan.zhihu.com/p/371588881、需要先安装 pip i原创 2020-08-20 11:00:06 · 574 阅读 · 0 评论 -
keras非Sequential模型的保存加载再训练和预测
import tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras import *from tensorflow.keras.layers import *1、保存用model.save_weights(’/d¥¥¥¥t888.h5’)2、加载再次训练模型加载和预测都需要先有原来模型的结构from tensorflow.keras import backend as K def create_model()原创 2020-06-21 12:53:59 · 714 阅读 · 0 评论 -
keras 多任务loss多输出模型搭建和callback使用
#esimimport tensorflow as tffrom tensorflow.keras import *from tensorflow.keras.layers import *from sklearn.model_selection import train_test_split# from xgboost import XGBClassifierfrom sklearn.metrics import accuracy_scorefrom sklearn.preprocessin原创 2020-06-19 11:04:16 · 970 阅读 · 0 评论 -
word2vec 电影推荐系统,加载腾讯词向量
word2vec词向量最后转成统一长度的电影item唯一表示1、 分词、训练# coding:utf-8import gensimfrom gensim.models import word2vecfrom gensim.models.doc2vec import Doc2Vec TaggededDocument = gensim.models.doc2vec.TaggedDocumentpath = r'/Users/lonng/Desktop/v+/呆萌的停用词表.txt'impor原创 2020-06-08 17:50:28 · 1145 阅读 · 0 评论 -
keras多输入lstm形式和tf2 lstm加attention
1、keras多输入二分类与多分类二分类X11=X1.reshape(X1.shape[0],n_timesteps,X1.shape[1])X22=X2.reshape(X2.shape[0],n_timesteps,X2.shape[1])X33=X3.reshape(X3.shape[0],n_timesteps,X3.shape[1])# y1=OneHotEncoder(sparse = False).fit_transform(y)# y2 = y1.reshape(y1.shape原创 2020-06-07 23:42:28 · 1604 阅读 · 2 评论 -
hdfs启动namenode启动不了,flume sink hdfs整合小文档
1、 hdfs启动namenode启动不了重新格式化就好;hadoop namenode -format进入/usr/local/Cellar/hadoop/3.2.1_1/sbin./start-dfs.sh网页查看:http://localhost:9870/hdfs dfs -mkdir /test1 hdfs dfs -put kms.sh /test1 hdfs dfs -cat /test1/kms.sh2、flume sink hdfs整合小文档时间维度和文档大小设原创 2020-05-14 12:02:02 · 211 阅读 · 0 评论 -
tensorflow 安装报错RuntimeError: dictionary changed size during iteration
参考:https://github.com/tensorflow/tensorflow/issues/33183 File "/Library/Developer/CommandLineTools/Library/Frameworks/Python3.framework/Versions/3.7/lib/python3.7/traceback.py", line 363, in extract...原创 2019-12-08 19:40:31 · 1529 阅读 · 0 评论 -
surprise 推荐系统简单入门
直接pip安装:pip install scikit-surprise1、使用小例子(‘print_perf’ ,evaluate都不能使,查原代理换成PredictionImpossible)from surprise import Dataset,prediction_algorithmsfrom surprise.model_selection import cross_valida...原创 2019-11-19 22:06:11 · 635 阅读 · 0 评论 -
天池-工业蒸汽量预测(mse:0.126 暂时排名300多名)
数据挖掘基本步骤:1、数据dba分析(多画图)2、数据预处理(异常值缺省值、相关性等)3、特征工程(统计分析筛选、模型决策树pca等方法筛选等)4、模型建立和调参优化5、模型融合stanking及回馈多次优化比赛记录:1、数据处理train_data = pd.read_csv('zhengqi_train.txt',sep='\t')test_data = pd.read_cs...原创 2019-11-11 21:56:15 · 550 阅读 · 2 评论 -
kaggle titanic数据挖掘比赛
正常数据挖掘:1、数据总览分析eda2、数据处理清洗3、特征工程4、模型及调优5、验证与反馈首先去kaggle下载数据集:(需要科学上网,登陆和最后提交成绩需要)https://www.kaggle.com/c/titanicimport numpy as npimport pandas as pdfrom sklearn import linear_model, prepro...原创 2019-10-21 10:20:24 · 515 阅读 · 0 评论 -
K最近邻算法(KNN)
1.原理:#选取点附近K值个数看属于那个多,K最近邻算法可以用于回归也可以用于分类****%下面两小例子,分布用于回归和分类%a、分类(KNeighborsClassifier)a1,这个例子是生产两个类的样本数,然后用一个数去预测from sklearn import datasetsfrom sklearn.neighbors import KNeighborsClassifier...原创 2018-11-19 16:09:03 · 414 阅读 · 0 评论 -
gensim-word2vec使用及增量训练更新
1,jieba分词读取及保存文件下载《人民的名义》的小说原文作为语料 百度云盘:https://pan.baidu.com/s/1ggA4QwNfrom gensim.models import word2vecimport jieba.analyseimport jieba#分词保存jieba.suggest_freq('沙瑞金', True)jieba.suggest_fre...原创 2019-01-13 14:54:53 · 1508 阅读 · 0 评论 -
snownlp学习-微博情感分析
学习链接:https://github.com/isnowfy/snownlpfrom snownlp import SnowNLPs = SnowNLP(u'这个东西真心很赞')s.words # [u'这个', u'东西', u'真心', # u'很', u'赞']s.tags # [(u'这个', u'r')...原创 2019-02-19 11:47:20 · 4801 阅读 · 0 评论 -
微软customvision在线图片分类器使用
参考:https://zhuanlan.zhihu.com/p/28820161customvision官网:https://www.customvision.ai(注册了可以自己建立新项目,创建自己需要的图片分类器)训练好模型后可以调用api进行预测:import requestsimport jsonurl='https://southcentralus.api.cogniti...原创 2019-03-04 09:44:52 · 1257 阅读 · 4 评论 -
cv2基础操作;连接 手机ip摄像头;加速读取视频或网络视频;循环播放视频
1,图片读取注意:imshow必须两个值,没有第一个窗口名字会不显示img = cv2.imread(r'C:\Users\Lavector\Desktop\3.jpg',1) #0表示灰度 1表示彩色(或者不填默认1)cv2.imshow('cat',img) cv2.waitKey(0)cv2.imwrite('aa.png',img) #保存2,本地视频读取和电脑摄像头...原创 2019-03-10 14:51:48 · 1786 阅读 · 0 评论 -
一元线性和多项式回归预测sklearn计算
import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegression#元数据生成x_data = np.random.randn(35)y_data = np.random.randn(35)plt.scatter(x_data,y_data)plt.sh...原创 2019-09-30 12:49:16 · 578 阅读 · 0 评论 -
机器学习scikit-learn
1.分类:监督学习,非监督学习,半监督学习(少量标签),强化学习,遗传算法2.安装:pip install scikit-learn 建议直接用anaconda(两个不用同事安装使用容易出错)**安装问题:如果不用anaconda用pip建议看下这篇文章https://bbs.csdn.net/topics/3918504353.sklearn包基本包括四大块,分类回归对应监督学习,聚类...原创 2018-11-19 11:39:36 · 296 阅读 · 0 评论