自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

转载 学习资料整理

自然语言处理(NLP)面试必备:pointwise 、 pairwise 、listwise - 知乎GBDT 与 LR 区别总结 - 知乎用xgboost做排序任务——xgboost下的learning2rank_seasongirl的博客-CSDN博客_xgboost排序xgboost参数_sklearn之XGBoost(模型保存、样本不均衡、参数)_weixin_39702480的博客-CSDN博客LR模型特征重要性排序_数据之美的博客-CSDN博客_lr特征重要性分析http..

2022-01-12 10:15:46 212

原创 tf pb模型 tornado 服务部署

Service 脚本"""NLG ckpt/pd model server"""from tornado.options import define, optionsimport tornado.httpserverimport tornado.ioloopimport tornado.optionsimport tornado.webimport jsonimport tensorflow as tffrom tensorflow.compat.v1.train import N

2021-12-17 15:17:02 252

转载 tensorflow ckpt 模型固化为pb 注意事项

Wiki - Gitee.com模型固化 - CANN 5.0.2 TensorFlow网络模型移植&训练指南 01 - 华为# -*- coding: utf-8 -*-#/usr/bin/python2'''Feb. 2019 by kyubyong park.kbpark.linguist@gmail.com.https://www.github.com/kyubyong/transformerInference'''import loggingimport os

2021-12-17 15:01:12 233

原创 pyspark 获取分组的topk 数据

from pyspark import SparkContext, SparkConffrom pyspark.sql import SparkSession, Windowfrom pyspark.sql.types import IntegerType, StringTypefrom pyspark.sql.functions import udf, colimport pyspark.sql.functions as fnew_data = new_data.select('u_id',.

2021-10-27 17:07:56 425

原创 bert 论文阅读笔记

论文:https://arxiv.org/pdf/1810.04805.pdf1、每个序列的第一个标签为[CLS]、句子中间用[SEP]来分割 用A、B 来表示前后两个句子Masked LM(Mask方法预测单词) 双向的上下文学习方法存在每个单词间接“看到自己”的问题,所以Bert随机屏蔽一定比例(15%)的输入标记,然后预测那些被屏蔽的标记。虽然MASK机制解决了单词简介“看到自己”的问题,但缺点是在预训练和微调之间造成了不匹配,因为 [MASK] 令牌在微调期间...

2021-09-30 17:25:35 133

原创 python 循环删除列表中的某些元素

# 循环删除列表中的元素时,最好从后向前删# 因为列表总是“向前移”,所以可以倒序遍历,即使后面的元素被修改了,还没有被遍历的元素和其坐标还是保持不变的。# leetcode submit region begin(Prohibit modification and deletion)class Solution(object): def removeDuplicates(self, nums): """ :type nums: List[int] .

2021-08-30 14:23:37 1295

原创 Python查看电脑的GPU型号

step1: 安装pynvmlpip install pynvmlstep2:import pynvmlpynvml.nvmlInit()deviceCount = pynvml.nvmlDeviceGetCount()for i in range(deviceCount): handle = pynvml.nvmlDeviceGetHandleByIndex(i) print ("Device", i, ":", pynvml.nvmlDeviceGetName(h

2021-08-26 16:59:08 493

原创 python 访问http接口Post、get

import requestsimport jsonimport Levenshteinimport openpyxlfrom openpyxl.styles import Font# post 方式def get_shiti(key_word): params = {"keyword": key_word, "openWhiteList": False, "platform": "pc", "requestType": "s.

2021-08-19 18:57:42 425

原创 openpyxl逐行读取xlsx文件,读取子表

from openpyxl import load_workbookdef get_newwords(read_file): wb = load_workbook(read_file) sh = wb["Sheet1"] # "Sheet1"表示子表名称 for item in list(sh.rows)[1:]: values = [] for val in item: values.append(val..

2021-08-12 16:19:43 1147

原创 新词发现-helloNLP

1、背景 对于直接进行分词来说,只能获取比较常见的英文单词,为了更好地理解用户搜索需求,我们需要利用用户的搜索数据来挖掘用户相关新词、短语。 数据支撑:query库 预计产出:新词短语2、技术调研2.1 数据源处理、分词 分词就是为了削弱相关性,降低对词序的依赖。但是有些词之间是存在依赖关系的,新词发现就是为了挖掘出聚有强依赖关系的词语。2.2 基于凝聚度和左右熵计算自由度的新词发现https://github.co...

2021-07-28 13:47:33 997 1

转载 推荐算法相关资料

https://tech.meituan.com/2015/01/22/mt-recommend-practice.html

2021-07-19 19:08:34 63

原创 python openpyxl 写excel文件,一个文件里多个子文件

import openpyxlfrom openpyxl.styles import Fontdef writer_file(file, datas, sheetname): ''' file: 文件名 datas: 待写入数据 sheetname: 子表名 ''' i = 1 xls = openpyxl.Workbook() sheet = xls.active xls.get_sheet_by_name("Shee.

2021-07-19 17:49:12 153

转载 频繁模式、序列挖掘

版权声明:本文为CSDN博主「谷雨逝」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/weixin_43919172/article/details/107018968频繁项集挖掘(Frequent Itemset Mining)序列挖掘(Sequence Mining)频繁项集挖掘Apriori Apriori是第一个基于自底向上的关联规则挖掘算法,它迭代地扫描着数据集。在每次迭代中,算法构建...

2021-07-14 20:23:46 360

转载 xgbosst学习

https://www.cnblogs.com/wj-1314/p/9402324.html

2020-10-22 11:09:41 563

原创 hadoop linux常用指令

cat all_08 | sort | uniq >> all_uniq 对文件排序去重wc -l 文件 统计文件行数cat part-* >> all_part 合并多个文件split -l 1048576 ipcam_fengshui.txt ipcam_ 将文件平均切分hadoop fs -cat /home/eng/jiguifang/all_urls/part-* | wc -l 看文件总共有多少行ps aux | grep "single_img.p.

2020-10-16 16:01:34 121

转载 Linux下定时执行脚本

https://blog.csdn.net/ycf921244819/article/details/80520217

2020-09-18 17:29:04 105

转载 语言模型(ngram,word2vec)

https://www.cnblogs.com/chason95/articles/10746960.html

2020-09-11 11:35:36 613

原创 python实现多线程工作

在python3中有concurrent实现多线程工作import threadingfrom concurrent.futures import ThreadPoolExecutordef retrieval_one_query(query, src_line): passdef yield_query(query_url_file) -> tuple: with open(query_url_file, 'r') as file_reader: line =

2020-09-09 16:27:27 109

原创 python实现mapreduce

python 实现map 1 #!/usr/bin/env python 2 3 #-*- coding:utf-8 -*- 4 import sys 5 import time 6 reload(sys) 7 sys.setdefaultencoding('utf8') 8 9 MIN_WORD_CNT = 10 10 11 if __name__ == '__main__': 12 13 cnt = 0 14 map_dict

2020-09-09 15:47:10 409

原创 跳台阶问题(一次只能跳1阶或者两阶)

题目描述一只青蛙一次可以跳上1级台阶,也可以跳上2级。求该青蛙跳上一个n级的台阶总共有多少种跳法(先后次序不同算不同的结果)。题解:当n=0时,f(n)=0,n=1时,f(n)=1;n=2时,f(n)=2;当n>2时,可以分为两种情况:①第一步跳1个台阶,这时有f(n-1)种跳法②第一步跳2个台阶,这时有f(n-2)种跳法所有f(n)=f(n-1)+f(n-1)class Solution {public: int jumpFloor(int number) {

2020-08-03 10:14:03 2318

原创 跳台阶问题(贪心)

题目描述一只青蛙一次可以跳上1级台阶,也可以跳上2级……它也可以跳上n级。求该青蛙跳上一个n级的台阶总共有多少种跳法。题解:对于n=0时有0中方法,n=1时有一种方法,当n>2时可以分为(1,n-1)和(n-1,1)这两种情况,所以n的的总跳法数,等于两个n-1的跳法数。就是当n>=2时,dp[n]=2*dp[n-1];class Solution {public: int jumpFloorII(int number) { vector<int

2020-08-03 09:42:37 186

原创 剑指offer-剪绳子问题

题目描述给你一根长度为n的绳子,请把绳子剪成整数长的m段(m、n都是整数,n>1并且m>1,m<=n),每段绳子的长度记为k[1],...,k[m]。请问k[1]x...xk[m]可能的最大乘积是多少?例如,当绳子的长度是8时,我们把它剪成长度分别为2、3、3的三段,此时得到的最大乘积是18。输入描述:输入一个数n,意义见题面。(2 <= n <= 60)输出描述:输出答案。示例1输入复制8输出复制18题解:我们只关心

2020-07-27 15:19:56 78

原创 搬石头最小用多少次使其有序

搬石头排序题目:沙滩摆放着一排大小不一的球形石头,已知第i个石头的半径为ri,不存在两个石头半径相等。现要求通过移动石头使摆放的石头从左往右半径递增。每次可选择一块石头,并把它放在剩下n-1块石头的最左边或最右边。求最少操作次数。输入:第一行一个整数n,表示石头个数。(1 <= n <= 100000).第二行n个整数,表示从左往右石头的半径r1,r2,…,rn( 1<= ri <= n)。保证不存在两个不同的石头半径相等。输出:最少操作次数。样例输入63 2

2020-07-26 17:01:08 667 1

原创 根据中序和后续遍历得到前序遍历

#include <iostream>#include <vector>using namespace std ;int main(){ int n, num = 1, maxr = 1; cin>>n; vector<int> r(n); vector<int> dp(n+1,0); for (int i = 0; i < n; i++) { cin>>r[i]; } for (int i =.

2020-07-26 16:49:21 123

原创 根据前序遍历和中序遍历得到二叉树的后续遍历

根据根节点将中序遍历的字符串分为左子树和右子树,并把每次迭代遍历的节点放到后续遍历字符串的前面。这里注意递归子树时先右后左。#include <iostream>#include <string>#include <vector>using namespace std;void get_postoder(string pre, string in, int in_s, int in_e, int root_index, string &post)

2020-07-26 16:46:13 113

原创 多层注意力模型:Hierarchical Attention Networks for Document Classification

论文链接:https://arxiv.org/abs/1707.00896v11、网络结构2 层级“注意力”词层面的“注意力”机制本文针对的是任务是文档分类任务,即认为每个要分类的文档都可以分为多个句子。因此层级“注意力”模型的第一部分是来处理每一个分句。对于第一个双向RNN输入是每句话的每个单词,其计算公式如下所示:基于单词的注意力模型,其计算公式如下:句层...

2019-03-20 15:37:13 1711

原创 KNN实例——约会网站+数据

https://github.com/pbharrin/machinelearninginaction机器学习实战源代码+数据import numpy as npimport operatorimport matplotlibimport matplotlib.pyplot as plt#import KNN'''group=np.array([[1,1.1],[1,1],[...

2019-03-17 19:42:58 1047

原创 mnist数据集,运用Python实现softmax

该博客利用Python的mxnet库来简单实现softmax算法,源代码如下:主要包括训练函数,网络构成函数,损失函数,和预测函数。import gluonbook as gbfrom mxnet import autograd,nddef softmax(x):    x_exp=x.exp()    partition=x_exp.sum(axis=1,keepdims=Tru...

2018-12-07 15:26:09 632

转载 用Python爬取文本信息

import requestsimport reimport timeheaders={ 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.638.0 Safari/534.16' }...

2018-04-16 09:19:44 2985

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除