自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 资源 (2)
  • 收藏
  • 关注

原创 tensorflow 的批数据处理Dataset类的使用方法说明

看到tf好多预处理数据的时候都会使用dataset类及其一些方法, 现在解释说明如下:这里先举一个连续处理的小案例, 然后一步步说明:创建dataset方法很多例如:这里选择一个简单易懂的方法ds_train = tf.data.Dataset.from_tensor_slices([0, 1, 2, 3, 4, 5, 6]) \ .map(add) \ .shuffle(buffer_size=9)\ .batch

2020-07-28 10:49:02 1571

原创 tf生成批数据集

tf生成批数据集ds_train = tf.data.Dataset.list_files("./data/cifar2/train/*/*.jpg") \ .map(load_image) \ .shuffle(buffer_size=2000)\ .batch(100) \ .prefetch(-1).repeat(3)

2020-07-28 02:29:36 240

原创 tf的io

import tensorflow as tfimg_path = "./data/cifar2/train/airplane/0.jpg"size = (32, 32)img1 = tf.io.read_file(img_path)print(type(img1), img1.shape)img2 = tf.image.decode_jpeg(img1) # 注意此处为jpeg格式print(type(img2), img2.shape)img3 = tf.image.res...

2020-07-28 02:23:22 193

原创 全角文本变半角文本

在做自然语言处理的时候发现国内的好多语料库都是采用的全角编码的, 这会有些麻烦, 需要将其改编成半角编码import osdef Q2B(uchar): """全角转半角""" inside_code = ord(uchar) if inside_code == 0x3000: inside_code = 0x0020 else: inside_code -= 0xfee0 # 转完之后不是半角字符返回原来的

2020-07-26 10:24:06 220

原创 numpy 操作

向上, 向下取整import numpy as np# 向上取整, 但不是整数, 需要转换类型np.ceil(2.6)3.0np.ceil(2.6).astype(np.int)3# 向下取整, 但不是整数, 需要转换类型np.floor(2.6)2.0np.floor(2.6).astype(np.int)2...

2020-07-22 22:37:56 178

原创 python获取 英文标点符号

英文中的所有标点符号from string import punctuationpunctuation结果:'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'删除中文文本中的所有标点符号import repun = ",。……——“”‘’!;"punList = list(set(list(pun)))pattern = re.compile("|".join(punList))res = re.sub(patter..

2020-07-22 19:19:24 4053

原创 keras 2.0.0 的“取长补短“功能 one-hot编码

keras的处理文本数据的取长补短功能from keras.preprocessing.sequence import pad_sequences# # help(pad_sequences)# pad_sequences(sequences, maxlen=None, # dtype='int32', padding='pre', # truncating='pre', value=0.0)x = [[1, 2, 3], [4,

2020-07-22 18:59:11 151

原创 使用 gensim 训练词向量

第一种情况 直接将文件传入文件内容应该是有空格或 其他风格符 分割好的import gensimsentences = gensim.models.word2vec.Text8Corpus("corpus_cut.txt") print("sentences格式:", sentences)# 训练 skip-gram 模型model = gensim.models.Word2Vec(sentences, size=5, min_count=2, window=3,

2020-07-22 18:02:48 653

原创 894. 所有可能的满二叉树

894. 所有可能的满二叉树难度中等满二叉树是一类二叉树,其中每个结点恰好有 0 或 2 个子结点。返回包含N个结点的所有可能满二叉树的列表。 答案的每个元素都是一个可能树的根结点。答案中每个树的每个结点都必须有node.val=0。你可以按任何顺序返回树的最终列表。class Solution: def allPossibleFBT(self, N: int) -> List[TreeNode]: def allTree(start, end...

2020-07-22 11:18:06 133

原创 783. 二叉搜索树节点最小距离

783. 二叉搜索树节点最小距离难度简单66给定一个二叉搜索树的根节点root,返回树中任意两节点的差的最小值。class Solution: def minDiffInBST(self, root: TreeNode) -> int: def travel(node): if not node: return [] return travel(node.left) + [node..

2020-07-22 09:59:55 509

原创 结巴jieba分词器的各种用法

import jiebajieba.__version__# 默认模式就是精确模式 # 默认参数(sentence, cut_all=False, HMM=True, use_paddle=False)seg_list = jieba.cut("我来到北京清华大学")print(list(seg_list))# 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=True)print(list(seg_list)) # 搜索引.

2020-07-21 12:35:47 1214

原创 11. 旋转数组的最小数字

剑指 Offer 11. 旋转数组的最小数字难度简单把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。输入一个递增排序的数组的一个旋转,输出旋转数组的最小元素。例如,数组[3,4,5,1,2]为[1,2,3,4,5]的一个旋转,该数组的最小值为1class Solution: def minArray(self, numbers: List[int]) -> int: i, j = 0, len(numbers) - 1 w...

2020-07-21 01:27:43 77

原创 06. 从尾到头打印链表

剑指 Offer 06. 从尾到头打印链表难度简单42输入一个链表的头节点,从尾到头反过来返回每个节点的值(用数组返回)。使用递归方法最简单 一句代码搞定# Definition for singly-linked list.# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: def reversePrin

2020-07-21 00:32:30 192

原创 95 96 不同的二叉搜索树

96. 不同的二叉搜索树难度中等给定一个整数n,求以1 ...n为节点组成的二叉搜索树有多少种?class Solution: def numTrees(self, n: int) -> int: if n == 0 or n == 1: return n dp = [0] * (n + 1) dp[0] = 1 dp[1] = 1 ...

2020-07-19 15:30:11 109

原创 通过tfidf求文本的关键字

通过tfidf 求文本的呃关键字

2020-07-13 00:59:54 490

原创 python中字典和json串的关系

字典是一个数据结构json在python中就是一个字符串实例其中data.json文件的内容为:

2020-07-12 23:09:38 184

原创 python 多线程

import threadingdef job(n): for i in range(n): i += 2 print(i) print("job end")if __name__ == '__main__': t1 = threading.Thread(target=job, args=(5,)) t1.start() print("main end")结果是:E:\software\anaconda19...

2020-07-12 22:34:52 96

原创 只出现一次或缺失的数字

136. 只出现一次的数字https://leetcode-cn.com/problems/single-number/难度简单给定一个非空整数数组,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。class Solution: def singleNumber(self, nums: List[int]) -> int: for i in range(1, len(nums)): nums[0] = n..

2020-07-11 22:46:24 159 1

原创 python中关于字典和Counter()的一点区别

可见字典的update 并不会累加键的值Counter()在进行update时候会累加键的值, 这样可以方便统计, 例如统计文件中出现最多的单词

2020-07-11 22:08:10 1602

原创 718. 最长重复子数组

718. 最长重复子数组难度中等给两个整数数组A和B,返回两个数组中公共的、长度最长的子数组的长度。class Solution: def findLength(self, A: List[int], B: List[int]) -> int: dp = [0 for i in range(len(B))] ans = 0 for i in range(len(A)): for j in range...

2020-07-11 17:06:43 90

原创 647. 回文子串

647. 回文子串难度中等282给定一个字符串,你的任务是计算这个字符串中有多少个回文子串。具有不同开始位置或结束位置的子串,即使是由相同的字符组成,也会被计为是不同的子串。class Solution: def countSubstrings(self, s: str) -> int: dp = [0 for i in range(len(s))] ans = 0 for i in range(len(s) - 1, -1,

2020-07-11 16:44:14 109 1

原创 03. 数组中重复的数字

剑指 Offer 03. 数组中重复的数字难度简单找出数组中重复的数字。在一个长度为 n 的数组 nums 里的所有数字都在 0~n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字。class Solution: def findRepeatNumber(self, nums: List[int]) -> int: for i in range(len(nums)):

2020-07-10 18:44:36 97

原创 metrics.classification_report评估模型结果

今天做分类任务遇到一种特殊的情况, 测试集的数据比较小, 预测的结果并不是每个类别都有, 这时使用sklearn.metrics, 并且指所有类别标签的时候会出错但是只要预测的每个类别都有, 真实的可以不全也不会报错...

2020-07-08 21:44:41 1687

原创 gensim训练词向量

gensim训练词向量# -*- coding: utf-8 -*-# @Time : 2020/7/7 12:41# @Author : WngXngimport jiebafrom gensim.models import word2vecimport gensimimport warningswarnings.filterwarnings("ignore")# 对初始语料进行分词处理后,作为训练模型的语料with open("corpus.txt", 'r', e

2020-07-08 00:37:36 1190

原创 基于gensim的lda的小案例

这里有两类文本, 一类是讲环保环境的, 一类是将经济建设的from gensim.corpora import Dictionaryfrom gensim.models.ldamodel import LdaModelfrom gensim import modelstexts = [['社会', '经济', '发展', '国民经济', '各行各业'], ['环境影响', '评价', '城市', '建设项目', '环保'], ['监管', '标准', '手段'

2020-07-07 18:09:24 695

原创 LeetCode 292. Nim 游戏

LeetCode292. Nim 游戏https://leetcode-cn.com/problems/nim-game/难度简单你和你的朋友,两个人一起玩Nim 游戏:桌子上有一堆石头,每次你们轮流拿掉1 - 3 块石头。 拿掉最后一块石头的人就是获胜者。你作为先手。你们是聪明人,每一步都是最优解。 编写一个函数,来判断你是否可以在给定石头数量的情况下赢得游戏。class Solution: def canWinNim(self, n: int) -> bool:...

2020-07-07 17:20:41 104

原创 LeetCode 237. 删除链表中的节点

LeetCode237. 删除链表中的节点https://leetcode-cn.com/problems/delete-node-in-a-linked-list/难度简单请编写一个函数,使其可以删除某个链表中给定的(非末尾)节点,你将只被给定要求被删除的节点。这道题只给了一个节点, 并没有给head, 让人懵逼半天, 看到非末尾节点才想起来怎么做# Definition for singly-linked list.# class ListNode:# def __i.

2020-07-07 17:14:03 89

原创 PyTorch中permute的用法 根据指定的维度进行转置

pytorch 中的permute 就像是numpy中的transpose()函数一样, 根据指定的维度进行转置, 我们这里跟view()进行一下对比

2020-07-06 21:45:16 1221

原创 关于nn.embedding的中padding_idx的含义

自然语言中使用批处理时候, 每个句子的长度并不一定是等长的, 这时候就需要对较短的句子进行padding, 填充的数据一般是0, 这个时候, 在进行词嵌入的时候就会进行相应的处理, nn.embedding会将填充的映射为0其中padding_idx就是这个参数, 这里以3 为例, 也就是说补长句子的时候是以3padding的, 这个时候我们液晶padding_idx设为3import torchimport torch.nn as nnembed = nn.Embedding(10, 3,

2020-07-06 21:39:20 9111 3

原创 anaconda 的notebook无法shutdown

找到notebook的相关文件将其中的改成四个parent(), 改之前是三个parent()

2020-07-06 19:09:18 223

原创 LeetCode  739. 每日温度

LeetCode739. 每日温度难度中等请根据每日气温列表,重新生成一个列表。对应位置的输出为:要想观测到更高的气温,至少需要等待的天数。如果气温在这之后都不会升高,请在该位置用0来代替。class Solution: def dailyTemperatures(self, T: List[int]) -> List[int]: length = len(T) stack = [] ans = [0] * length...

2020-07-04 23:43:29 120

原创 LeetCode32 最长有效括号

LeetCode32. 最长有效括号给定一个只包含'('和')'的字符串,找出最长的包含有效括号的子串的长度。class Solution: def longestValidParentheses(self, s: str) -> int: left, right, maxlen = 0, 0, 0 # left 代表左括号的个数, right代表右括号的个数 # 从左到右遍历 for char in s:...

2020-07-04 18:47:01 160

原创 torch的池化

2020-07-03 22:15:12 764

原创 回文子串的数量

647. 回文子串难度 中等给定一个字符串,你的任务是计算这个字符串中有多少个回文子串。具有不同开始位置或结束位置的子串,即使是由相同的字符组成,也会被计为是不同的子串class Solution: def countSubstrings(self, s: str) -> int: str_len = len(s) if str_len == 0 or s is None: return 0 dp =

2020-07-02 01:00:16 926

原创 更新索引 和 离散特征值的处理 pd.get_dummies(X)

我们这里为了演示, 直接删除含有空值的行, 这是会会出现索引不连续的情况, 如图, 索引少了888, 这是我们需要更新索引这时我们看到所有数据从891条变成了712条, 但是原始的所以竟然变成了新的特征列, 这不是我们想要的, 只需添加一个参数即可改变这种情况这才是我们需要的. 但是这个方法返回更新索引的新数据, 原始数据并不会改变, 不信看看原始数据好了, 我们现在说说离散特征的处理, 虽然有from sklearn.preprocessing import One...

2020-07-01 11:19:04 730

GoogleNews-vectors-negative300网盘地址.txt

这是网络上的关于GoogleNews-vectors-negative300.bin.gz文件的百度网盘地址

2019-12-09

中文繁体转简体工具

此jar包可以将java程序中的繁体字转化成简体字,亲测可以使用

2018-07-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除