smallTutou-CSDN博客

原创排序算法桶排序

排序算法，桶排序

2022-06-10 18:12:20 138 1

原创脚本文件基于rsync工具快速分发目录或文件到其他服务器节点踩过的坑

脚本文件基于rsync工具快速分发目录或文件到其他服务器节点踩过的坑1. cd -P 注意此处得是大写P，不可以是小写2. 获取文件名或路径名时，不可用’ ’ ,得用$()，如下所示错误写法正确写法完整的脚本文件#!/bin/bash#1 获取输入参数个数，如果没有参数，直接退出pcount=$#if ((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=$(basename $p1)echo $fn

2022-04-26 14:33:20 279

原创 Hadoop格式化集群错误 ERROR namenode.NameNode: Failed to start namenode

Hadoop格式化集群错误 ERROR namenode.NameNode: Failed to start namenode在执行hdfs namenode -format时，出现如下错误：根据百度结果检查了core.site.xml文件，发现没有问题，后又检查了hdfs.site.xml文件，主要检查路径格式，经过多次查看，真的是该地方出现错误。原错误格式：正确格式：...

2022-04-25 20:26:46 4749

原创 SecureCRT$SecureFX的安装方法

SecureCRT$SecureFX的安装方法SecureCRT$SecureFX下载地址链接：https://pan.baidu.com/s/1SskwXkD6Cc1JKhvcQUIAIw提取码：n1ql安装过程下载完成后，并解压SecureCRT&SecureFX Version.rar运行安装程序scrt-sfx-x64.9.1.1.2638.exe. 选择同意协议并点击next选择custom安装，更改自己需要的安装路径，继续next点击install，等

2022-04-18 11:38:13 2378 2

原创 word2vec模型训练

import numpy as npfrom collections import defaultdictclass word2vec(): def __init__(self): self.n = settings['n'] self.lr = settings['learning_rate'] self.epochs = settings['epochs'] self.window = settings['window_s

2022-04-15 16:00:33 851

原创读取只有一行数据的大文件

"""读取大文件，一行数据"""def myreadlines(f,newline): buf = "" while True: while newline in buf: pos = buf.index(newline) print(pos) print(pos + len(newline)) yield buf[:pos] buf = buf[pos+

2022-04-08 16:08:49 118

原创斐波那契数列

斐波那契数列##递归方式"""斐波那契函数：1,1,2,3,5,8.."""def fib(index): if index <= 2: return 1 else: return fib(index-1)+fib(index-2)##普通方式def fib(index): re_list = [] n,a,b = 0,0,1 while n < index: re_list.append(b)

2022-04-08 16:04:54 89

原创利用tf-idf提取关键词

##读取.txt并保存为.txtfrom jieba import analysef = open("result.txt", "w", encoding="utf-8")for line in open("text.txt",encoding="utf-8"): tfidf = analyse.extract_tags text = line keywords = tfidf(text, topK=4, withWeight=False, allowPOS=())

2022-04-08 15:27:13 1696

原创单词拼写纠错

from nltk.corpus import reutersfrom docx import Documentfrom nltk import sent_tokenize, word_tokenizeimport reimport numpy as np#词典库vocab = []for line in open("data/spell-testset1.txt"): items = line.split(":") item = items[0].strip() v

2022-04-08 15:20:18 100

原创词性标注pos_tagging

import numpy as np#1.构造词典、词性库tag2id,id2tag = {},{}word2id ,id2word = {},{}for line in open("traindata.txt"): items = line.split("/") tag,word = items[1].rstrip(),items[0] if tag not in tag2id: tag2id[tag] = len(tag2id) i

2022-04-08 15:14:36 286

原创二叉树创建

#定义树节点class Node(object): def __init__(self,data): #data为树节点存储数据，left左子树，right右子树 self.elem = data self.lchild = None self.rchild = None#创建二叉树class BinTree(object): def __init__(self): self.root = None .

2022-04-08 15:09:48 95

原创 Top-N推荐

import pandas as pdfrom pandas import DataFrame# from sklearn.metrics import jaccard_similarity_scorefrom sklearn.metrics.pairwise import pairwise_distancesimport numpy as npusers = ["User1","User2","User3","User4","User5"]items = ["Item1","Item2","

2022-04-08 11:26:35 288

原创隐语义模型LFM基础代码

'''LFM Model'''import pandas as pdimport numpy as npclass LFM: def __init__(self,alpha,reg_p,reg_q,number_latentFactors=10,number_epochs=10,columns=["uid","iid","rating"]): self.alpha = alpha #学习率 self.reg_p = reg_p #p矩阵正则

2022-04-08 11:20:41 175

原创读取、处理Yelp数据集

##读取、处理Yelp数据集import pandas as pdimport jsonreviews_path =r"../yelp_dataset/yelp_academic_dataset_review.json"'''读取原始数据'''file = open(reviews_path, 'r', encoding="utf-8")users_id = []items_id = []ratings = []reviews = []dates = []i =0for

2022-04-08 11:14:49 2981

原创基础的协同过滤算法

##ml_1m数据集下载地址：http://files.grouplens.org/datasets/movielens/##基于用户的协同过滤import numpy as npimport pandas as pdfile = "ml-1m/ratings.dat"header = ["uid","iid","rating"]dtype = {"uid" :np.int32,"iid":np.int32,"rating":np.float32}data = pd.read_csv(fi

2022-04-08 10:38:56 1448

原创 DataFrame 数据集切分

DataFrame 数据集切分#方式1from sklearn.model_selection import train_test_split # split train set and test setdata_train, data_test = train_test_split(data, test_size=0.2, random_state=1234)# split validate set and test setdata_test, data_val = train_test_s

2021-11-08 11:19:47 2775

转载基于评论的深度推荐模型综述

基于评论的深度推荐模型综述摘要推荐系统因可以为人们提供个性化的推荐而在日常生活中扮演者越来越重要的角色。传统的推荐系统往往利用用户或物品的评分信息，然而在现实场景中这种评分信息一般是比较稀疏的，这种数据稀疏问题会造成推荐性能的下降。因此，许多研究人员尝试使用用户的评论辅助信息去学习用户、物品的表示进一步地弥补数据稀疏问题。现存的方法在利用评论信息构建用户、物品表示时往往存在两种类别的表示，分别是使用用户撰写的和写给物品的全部评论拼接为文档进行表示学习，另一种则是将每条评论单独的建模学习，本文也将以此作为

2021-10-09 21:12:29 730

原创网易算法笔试

import numpy as npdef func1(a):n, m = a.shapeif n == 2:a = a.reshape(-1)a = a.tolist()a.sort()return a[1]l = []for i in range(0, n, 2):for j in range(0, m, 2):li = [a[i][j], a[i + 1][j], a[i][j + 1], a[i + 1][j + 1]]li.sort()l.append(li[1])ma

2021-09-23 17:19:15 130

原创子序列相关题目 python

‘’‘最长连续子序列’’’def findmax(nums):maxnum = 1curr = 1for i in range(len(nums)-1):if nums[i] < nums[i+1]:curr += 1else:maxnum = max(maxnum,curr)curr = 1return max(maxnum,curr)‘’‘最长连续递增子序列个数’’’def findmaxnum(nums):maxnum = 1curr = 1num = []for

2021-09-23 17:18:01 159

转载 tf.feature_column实用特征工程总结

tf.feature_column实用特征工程总结链接：https://www.jianshu.com/p/733501e64966

2021-09-22 18:20:23 82

原创 AttributeError: ‘BatchDataset‘ object has no attribute ‘make_one_shot_iterator‘

AttributeError: ‘BatchDataset‘ object has no attribute ‘make_one_shot_iterator‘tf2.0将“ import tensorflow as tf”改为：“import tensorflow.compat.v1 as tf”

2021-09-17 11:26:30 1115

原创 AttributeError: module ‘tensorflow‘ has no attribute ‘decode_csv‘

** AttributeError: module ‘tensorflow’ has no attribute ‘decode_csv’**tf2.0将“tf.decode_csv(line, record_defaults=_CSV_COLUMN_DEFAULTS)”改为：“tf.io.decode_csv(line, record_defaults=_CSV_COLUMN_DEFAULTS)”

2021-09-17 11:00:32 586

原创 AttributeError: module ‘tensorflow‘ has no attribute ‘app‘

AttributeError: module ‘tensorflow’ has no attribute 'app’tensorflow2.0版本将“import tensorflow as tf”改为“import tensorflow.compat.v1 as tf”

2021-09-17 10:51:23 400

原创 AttributeError: module ‘tensorflow‘ has no attribute ‘gfile‘

**AttributeError: module ‘tensorflow’ has no attribute ‘gfile’**写自定义目录标题)欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全

2021-09-17 10:48:25 837

转载 RNN、LSTM、GRU代码案例

RNN、LSTM、GRU代码案例https://www.cnblogs.com/Luv-GEM/p/10788849.html

2021-08-14 20:06:36 240

转载 TO_CHAR(DATE,FORMAT)详解

SYSDATE 2009-6-16 15:25:10 　 TRUNC(SYSDATE) 2009-6-16 　 TO_CHAR(SYSDATE,'YYYYMMDD') 20090616 到日 TO_CHAR(SYSDATE,'YYYYMMDD HH24:MI:SS') 20090616 15:25:10 到秒 TO_CHAR(SYSTIMESTAMP,'YYYYMMDD HH24:MI:SS.FF3') 20090616 15:25:..

2021-07-05 14:14:34 296

原创逻辑回归与线性回归

逻辑回归与线性回归二者最本质的区别是：逻辑回归解决分类问题，而线性回归解决回归问题。但二者之间又具有联系，可从线性回归转化为逻辑回归。线性回归表达式为：y=w∗x+by=w*x+by=w∗x+b希望通过该模型做二分类任务，即目标为0,1，但并不可以用线性回归表示P(Y|X)=w*X+bP(Y|X)条件概率需满足:1)0<=P(Y|X)<=1,2)∑yP(Y∣X)=1\sum _{y}P(Y|X)=1∑yP(Y∣X)=1而 −∝<w∗x+b<∝-\propto <w*

2021-04-12 20:44:59 240

原创正则化

L1损失函数L1=1N∑i=1N(yi−wTxi)2+C∣w∣1L1=\frac{1}{N}\sum_{i=1}^{N}\left ( y _{i}-w^{T}x_{i}\right )^{2}+C\left | w \right |_{1}L1=N1i=1∑N(yi−wTxi)2+C∣w∣1L1正则化可产生稀疏模型，具有选择作用经过上图观察可以看到，几乎对于很多原函数等高曲线，和某个菱形相交的时候及其容易相交在坐标轴，也就是说最终的结果，解的某些维度及其容易是0，比如上图最终解是:w

2021-04-09 21:09:30 59

原创过拟合与欠拟合

##过拟合与欠拟合过拟合模型在训练集上的表现好，但是在测试集和新数据上的表现较差。降低过拟合的方法：1）获取和使用更多数据（数据增强）----根本性方法2）采用合适的模型（控制模型复杂度）a. 减少网络层数和神经元个数b. 树模型进行剪枝，降低其深度3）降低特征数量（删除冗余特征）4）正则化（L1/L2正则）5）Dropout6）采用Early stopping或知识蒸馏方式训练模型欠拟合模型在训练和预测时表现都不好。降低欠拟合的方法：1）增加特征a.

2021-04-08 19:36:02 61

原创特征归一化

为什么做特征归一化？特征归一化是将所有特征统一到一个相同数值区间，通常为[0,1]。常用的特征归一化方法有：1.Min-Max Scaling对原始数据进行线性变换，使结果映射到[0,1]，实现对数据的等比例缩放。...

2021-04-08 16:27:18 2296

原创列表切片操作

列表切片操作alist = [0,1,2,3,4,5]#1. 列表取值print(alist[::]) #返回列表中所有元素print(alist[::-1]) #返回列表中所有元素的逆序列表print(alist[::2]) #返回列表中偶数位置的元素print(alist[1::2]) #返回列表中奇数位置的元素print(alist[2:4]) #指定列表的开始和结束位置print(alist[0:10]) #若切片结束位置大于列表长度时，从列表尾部截断print(alist[10:

2021-04-04 14:53:28 1666 1

原创序列相加

序列相加#1.直接用“+”，序列形式必须相同，即均为list、tuple等eg:a = [1,2,3]b = [4,5]c = a+bprint©#结果：[1,2,3,4,5]#2.就地加，可以任意序列形式相加eg:a = [1,2,3]a += (4,5print(a#结果：[1,2,3,4,5]

2021-04-04 13:55:46 1090

原创上下文管理协议器

上下文管理协议器#上下文管理器协议#法1import [email protected] file_open(file_name):print(“file open”)yield{}print(“file end”)with file_open(“body.txt”) as f_opened:print(“file processing”)#法2class Sample:def enter(self):print(“enter”)re

2021-04-04 13:25:55 47

smallTutou的博客