小鸡仔_orz-CSDN博客

转载学习资料整理

自然语言处理（NLP）面试必备：pointwise 、 pairwise 、listwise - 知乎GBDT 与 LR 区别总结 - 知乎用xgboost做排序任务——xgboost下的learning2rank_seasongirl的博客-CSDN博客_xgboost排序xgboost参数_sklearn之XGBoost(模型保存、样本不均衡、参数)_weixin_39702480的博客-CSDN博客LR模型特征重要性排序_数据之美的博客-CSDN博客_lr特征重要性分析http..

2022-01-12 10:15:46 212

原创 tf pb模型 tornado 服务部署

Service 脚本"""NLG ckpt/pd model server"""from tornado.options import define, optionsimport tornado.httpserverimport tornado.ioloopimport tornado.optionsimport tornado.webimport jsonimport tensorflow as tffrom tensorflow.compat.v1.train import N

2021-12-17 15:17:02 252

转载 tensorflow ckpt 模型固化为pb 注意事项

Wiki - Gitee.com模型固化 - CANN 5.0.2 TensorFlow网络模型移植&训练指南 01 - 华为# -*- coding: utf-8 -*-#/usr/bin/python2'''Feb. 2019 by kyubyong park.kbpark.linguist@gmail.com.https://www.github.com/kyubyong/transformerInference'''import loggingimport os

2021-12-17 15:01:12 233

原创 pyspark 获取分组的topk 数据

from pyspark import SparkContext, SparkConffrom pyspark.sql import SparkSession, Windowfrom pyspark.sql.types import IntegerType, StringTypefrom pyspark.sql.functions import udf, colimport pyspark.sql.functions as fnew_data = new_data.select('u_id',.

2021-10-27 17:07:56 425

原创 bert 论文阅读笔记

论文：https://arxiv.org/pdf/1810.04805.pdf1、每个序列的第一个标签为[CLS]、句子中间用[SEP]来分割用A、B 来表示前后两个句子Masked LM（Mask方法预测单词）双向的上下文学习方法存在每个单词间接“看到自己”的问题，所以Bert随机屏蔽一定比例（15%）的输入标记，然后预测那些被屏蔽的标记。虽然MASK机制解决了单词简介“看到自己”的问题，但缺点是在预训练和微调之间造成了不匹配，因为 [MASK] 令牌在微调期间...

2021-09-30 17:25:35 133

原创 python 循环删除列表中的某些元素

# 循环删除列表中的元素时，最好从后向前删# 因为列表总是“向前移”，所以可以倒序遍历，即使后面的元素被修改了，还没有被遍历的元素和其坐标还是保持不变的。# leetcode submit region begin(Prohibit modification and deletion)class Solution(object): def removeDuplicates(self, nums): """ :type nums: List[int] .

2021-08-30 14:23:37 1295

原创 Python查看电脑的GPU型号

step1: 安装pynvmlpip install pynvmlstep2:import pynvmlpynvml.nvmlInit()deviceCount = pynvml.nvmlDeviceGetCount()for i in range(deviceCount): handle = pynvml.nvmlDeviceGetHandleByIndex(i) print ("Device", i, ":", pynvml.nvmlDeviceGetName(h

2021-08-26 16:59:08 493

原创 python 访问http接口Post、get

import requestsimport jsonimport Levenshteinimport openpyxlfrom openpyxl.styles import Font# post 方式def get_shiti(key_word): params = {"keyword": key_word, "openWhiteList": False, "platform": "pc", "requestType": "s.

2021-08-19 18:57:42 425

原创 openpyxl逐行读取xlsx文件，读取子表

from openpyxl import load_workbookdef get_newwords(read_file): wb = load_workbook(read_file) sh = wb["Sheet1"] # "Sheet1"表示子表名称 for item in list(sh.rows)[1:]: values = [] for val in item: values.append(val..

2021-08-12 16:19:43 1147

原创新词发现-helloNLP

1、背景对于直接进行分词来说，只能获取比较常见的英文单词，为了更好地理解用户搜索需求，我们需要利用用户的搜索数据来挖掘用户相关新词、短语。数据支撑：query库预计产出：新词短语2、技术调研2.1 数据源处理、分词分词就是为了削弱相关性，降低对词序的依赖。但是有些词之间是存在依赖关系的，新词发现就是为了挖掘出聚有强依赖关系的词语。2.2 基于凝聚度和左右熵计算自由度的新词发现https://github.co...

2021-07-28 13:47:33 997 1

转载推荐算法相关资料

https://tech.meituan.com/2015/01/22/mt-recommend-practice.html

2021-07-19 19:08:34 63

原创 python openpyxl 写excel文件，一个文件里多个子文件

import openpyxlfrom openpyxl.styles import Fontdef writer_file(file, datas, sheetname): ''' file: 文件名 datas: 待写入数据 sheetname：子表名 ''' i = 1 xls = openpyxl.Workbook() sheet = xls.active xls.get_sheet_by_name("Shee.

2021-07-19 17:49:12 153

转载频繁模式、序列挖掘

版权声明：本文为CSDN博主「谷雨逝」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/weixin_43919172/article/details/107018968频繁项集挖掘（Frequent Itemset Mining）序列挖掘（Sequence Mining）频繁项集挖掘Apriori Apriori是第一个基于自底向上的关联规则挖掘算法，它迭代地扫描着数据集。在每次迭代中，算法构建...

2021-07-14 20:23:46 360

转载 xgbosst学习

https://www.cnblogs.com/wj-1314/p/9402324.html

2020-10-22 11:09:41 563

原创 hadoop linux常用指令

cat all_08 | sort | uniq >> all_uniq 对文件排序去重wc -l 文件统计文件行数cat part-* >> all_part 合并多个文件split -l 1048576 ipcam_fengshui.txt ipcam_ 将文件平均切分hadoop fs -cat /home/eng/jiguifang/all_urls/part-* | wc -l 看文件总共有多少行ps aux | grep "single_img.p.

2020-10-16 16:01:34 121

转载 Linux下定时执行脚本

https://blog.csdn.net/ycf921244819/article/details/80520217

2020-09-18 17:29:04 105

转载语言模型（ngram,word2vec)

https://www.cnblogs.com/chason95/articles/10746960.html

2020-09-11 11:35:36 613

原创 python实现多线程工作

在python3中有concurrent实现多线程工作import threadingfrom concurrent.futures import ThreadPoolExecutordef retrieval_one_query(query, src_line): passdef yield_query(query_url_file) -> tuple: with open(query_url_file, 'r') as file_reader: line =

2020-09-09 16:27:27 109

原创 python实现mapreduce

python 实现map 1 #!/usr/bin/env python 2 3 #-*- coding:utf-8 -*- 4 import sys 5 import time 6 reload(sys) 7 sys.setdefaultencoding('utf8') 8 9 MIN_WORD_CNT = 10 10 11 if __name__ == '__main__': 12 13 cnt = 0 14 map_dict

2020-09-09 15:47:10 409

原创跳台阶问题（一次只能跳1阶或者两阶）

题目描述一只青蛙一次可以跳上1级台阶，也可以跳上2级。求该青蛙跳上一个n级的台阶总共有多少种跳法（先后次序不同算不同的结果）。题解：当n=0时，f(n)=0，n=1时，f(n)=1；n=2时，f(n)=2；当n>2时，可以分为两种情况：①第一步跳1个台阶，这时有f(n-1)种跳法②第一步跳2个台阶，这时有f(n-2）种跳法所有f(n)=f(n-1)+f(n-1)class Solution {public: int jumpFloor(int number) {

2020-08-03 10:14:03 2318

原创跳台阶问题（贪心）

题目描述一只青蛙一次可以跳上1级台阶，也可以跳上2级……它也可以跳上n级。求该青蛙跳上一个n级的台阶总共有多少种跳法。题解：对于n=0时有0中方法，n=1时有一种方法，当n>2时可以分为（1，n-1）和（n-1,1）这两种情况，所以n的的总跳法数，等于两个n-1的跳法数。就是当n>=2时，dp[n]=2*dp[n-1];class Solution {public: int jumpFloorII(int number) { vector<int

2020-08-03 09:42:37 186

原创剑指offer-剪绳子问题

题目描述给你一根长度为n的绳子，请把绳子剪成整数长的m段（m、n都是整数，n>1并且m>1，m<=n），每段绳子的长度记为k[1],...,k[m]。请问k[1]x...xk[m]可能的最大乘积是多少？例如，当绳子的长度是8时，我们把它剪成长度分别为2、3、3的三段，此时得到的最大乘积是18。输入描述:输入一个数n，意义见题面。（2 <= n <= 60）输出描述:输出答案。示例1输入复制8输出复制18题解：我们只关心

2020-07-27 15:19:56 78

原创搬石头最小用多少次使其有序

搬石头排序题目：沙滩摆放着一排大小不一的球形石头，已知第i个石头的半径为ri，不存在两个石头半径相等。现要求通过移动石头使摆放的石头从左往右半径递增。每次可选择一块石头，并把它放在剩下n-1块石头的最左边或最右边。求最少操作次数。输入：第一行一个整数n，表示石头个数。（1 <= n <= 100000）.第二行n个整数，表示从左往右石头的半径r1，r2，…，rn（ 1<= ri <= n）。保证不存在两个不同的石头半径相等。输出：最少操作次数。样例输入63 2

2020-07-26 17:01:08 667 1

原创根据中序和后续遍历得到前序遍历

#include <iostream>#include <vector>using namespace std ;int main(){ int n, num = 1, maxr = 1; cin>>n; vector<int> r(n); vector<int> dp(n+1,0); for (int i = 0; i < n; i++) { cin>>r[i]; } for (int i =.

2020-07-26 16:49:21 123

原创根据前序遍历和中序遍历得到二叉树的后续遍历

根据根节点将中序遍历的字符串分为左子树和右子树，并把每次迭代遍历的节点放到后续遍历字符串的前面。这里注意递归子树时先右后左。#include <iostream>#include <string>#include <vector>using namespace std;void get_postoder(string pre, string in, int in_s, int in_e, int root_index, string &post)

2020-07-26 16:46:13 113

原创多层注意力模型：Hierarchical Attention Networks for Document Classification

论文链接：https://arxiv.org/abs/1707.00896v11、网络结构2 层级“注意力”词层面的“注意力”机制本文针对的是任务是文档分类任务，即认为每个要分类的文档都可以分为多个句子。因此层级“注意力”模型的第一部分是来处理每一个分句。对于第一个双向RNN输入是每句话的每个单词，其计算公式如下所示：基于单词的注意力模型，其计算公式如下：句层...

2019-03-20 15:37:13 1711

原创 KNN实例——约会网站+数据

https://github.com/pbharrin/machinelearninginaction机器学习实战源代码+数据import numpy as npimport operatorimport matplotlibimport matplotlib.pyplot as plt#import KNN'''group=np.array([[1,1.1],[1,1],[...

2019-03-17 19:42:58 1047

原创 mnist数据集，运用Python实现softmax

该博客利用Python的mxnet库来简单实现softmax算法，源代码如下：主要包括训练函数，网络构成函数，损失函数，和预测函数。import gluonbook as gbfrom mxnet import autograd,nddef softmax(x): x_exp=x.exp() partition=x_exp.sum(axis=1,keepdims=Tru...

2018-12-07 15:26:09 632

转载用Python爬取文本信息

import requestsimport reimport timeheaders={ 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.638.0 Safari/534.16' }...

2018-04-16 09:19:44 2985

weixin_40650252的博客