2020年06月_chnhbhndchngn

原创 collections.Counter 的比较

Counter的most_common()方法返回的是列表, 如果某个元素的个数相同, 那么就可能顺序不同, 所以是False

2020-06-30 18:24:23 619

from keras.utils import to_categoricaltrain_labels = to_categorical([0, 1, 2, 3, 9])train_labels结果为:array([[1., 0., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.], [0., 0., 1., 0., 0., 0., 0., 0., 0., 0....

2020-06-30 01:18:41 1409

原创 torch max()函数

torch.max()返回的是两个值, 第一个是最大值, 第二个是最大值所在的索引, 一般情况,我们都是求最大值所在的索引import torcha = torch.tensor([[1, 5, 2, 1], [2, 6, 3, 8]])print(a)res, index = torch.max(a, 1)print(res)print(index)只用最大值索引求准确率:# 准确率的计算 # 100个样本, 10 个类别predict = torch.rand(100

2020-06-29 17:18:48 1390

原创 pytorch 中 contiguous()

好像是已经过时的函数, 在pytorch0.4之前, view()进行改变形状时, 这个变量tensor的内存必须是连续的, 否则会失败, 但是现在可以了, 举例如下:import torchx = torch.tensor([[1, 2, 0], [0, 0, 0], [0, 0, 0], [0, 2, 3]])mask = x != 0print("mask:\n", mask)x = x[mask]print("\nx:", x)print("\nx内存是否连续:", x.is_

2020-06-29 16:08:15 2011

原创 torch 的 F.cross_entropy

torch中的交叉熵损失函数使用案例import torchimport torch.nn.functional as Fpred = torch.randn(3, 5)print(pred.shape)target = torch.tensor([2, 3, 4]).long() # 需要是整数print(target.shape)# 交叉熵损失函数, 输入的参数是形状不一样的# predict会在其内部进行softmax操作loss = F.cross_entropy(pre

2020-06-29 15:55:39 2376

原创 numpy 的reshape

import numpy as npa = np.random.randn(2, 3)print(a)b = a.reshape(3, 2)print(b)# a本身形状不变print(a)# 但此时, a, b指向的内存是相同的, 但是id又不一致a[0, 0] = 999 # a改变的时候 b也会改变print(a)print(b)...

2020-06-29 15:47:01 164

原创结巴分词及词性

import jiebaimport jieba.posseg as psegwords = pseg.cut("我爱毛主席北京天安门.!")for word, flag in words: print('%s: %s' % (word, flag))打印结果:通过查看jieba的GitHub上, 可以得到词性的简写都代表什么意思

2020-06-29 10:05:43 1688

原创 leetcode 链表求和两种方法迭代和递归

面试题 02.05. 链表求和https://leetcode-cn.com/problems/sum-lists-lcci/给定两个用链表表示的整数，每个节点包含一个数位。这些数位是反向存放的，也就是个位排在链表首部。编写函数对这两个整数求和，并用链表形式返回结果。示例：输入：(7 -> 1 -> 6) + (5 -> 9 -> 2)，即617 + 295输出：2 -> 1 -> 9，即912# Definition for singly-

2020-06-28 23:54:41 709

原创 leetcode 209 长度最小的子数组

209. 长度最小的子数组难度中等给定一个含有n个正整数的数组和一个正整数s ，找出该数组中满足其和≥ s的长度最小的连续子数组，并返回其长度。如果不存在符合条件的连续子数组，返回 0。使用两个指针, 使用滑动窗口的思想, 当窗口内的数据之和小于target时, 右侧增加数据, 当窗口之内数据之和大于等于target时, 左侧减少数据, 直到右侧不能移动第一个版本:class Solution: def minSubArrayLen(self, s: int, nu...

2020-06-28 21:10:02 133

原创 torch 的RNN LSTM GRU

首先创造初始值这里画出图帮助理解其实对于每个单元来说 h就是输出, 这里可以看到最终两者的结果是相同但是id 不同, 在tensorflow中两者的id都是相同的真不明白torch创建的rnn单元为啥非得指明输入的x的维度, 这样的模型只能接收一定的x,而tensorflow中rnn单元对输入的维度是没有限制的, 只需指定内部的单元数量及可以了...

2020-06-27 17:45:01 425

原创 torch squeeze 压缩维度

2020-06-27 16:09:33 2039

原创类的各种方法和属性

2020-06-25 21:44:17 402

原创进制和ASCII 各种转换

2020-06-25 20:55:55 826

原创列表的地址, 大小和内容

2020-06-25 20:44:49 359

原创 torch.multinomial使用

在Word2vec中使用到了非相关数据的降采样方法, 其中用到了torch.multinomial方法, 这里记录一下:multinomial(input, num_samples, replacement=False)该方法主要有三个参数, 分别是输入的张量, 采样的个数, 是否有重复的数据, 采样的时候是根据输入张量的数值当做权重来进行抽样的, 数值越大, 抽到的可能性越大, 越小抽到的可能性越小, 如果是0 则不会抽到由案例可知, 输出的是出入的张量的索引值,当非零数据只有4个时

2020-06-23 21:34:50 2331

原创余弦相似度

使用sklearn内部的方法计算余弦相似度# 余弦相似度import numpy as npfrom sklearn.metrics.pairwise import cosine_similarityx1 = np.array([[2, 3], [1, 2]])x2 = np.array([[1, 2]])cosine_similarity(x1, x2) 结果是:需要注意的是这里的输入的必须是二维的数据...

2020-06-23 21:25:44 226

原创保存模型的两种方法

from sklearn.linear_model import LogisticRegressionfrom sklearn import datasetsimport picklefrom sklearn.externals import joblibclf = LogisticRegression()iris = datasets.load_iris()X, y = iris.data, iris.targetclf.fit(X, y)print(clf.score(X, y)).

2020-06-22 16:24:52 3250

原创 python zip的用法既可以合并列表, 也可以拆分成列表

2020-06-22 15:38:26 2456

原创根据词频 TfidfVectorizer 将单词, 句子, 文章变成向量

2020-06-22 15:19:08 1150

原创根据词频 CounterVectorizer 将单词, 句子, 文章变成向量

2020-06-22 15:11:23 770

原创类别标签的转换与反转换

2020-06-22 13:48:19 354

原创列表是引用类型

a和b指向的是同一块地址

2020-06-22 11:45:20 179

原创 SQL面试题

有这么一些数据请写出结果是这样的SQL语句当时没写出来, 现在看来应该是hive的语句吧, 要是MySQL的话, 虽然8.0以后增加了窗口函数, 但是没有collect_list(col)函数啊, 先这样记录一下吧SELECT t1.uid, collect_list (t1.load_date)[0] AS first_load_date, collect_list (t1.last_load_date)[0] AS last_load_dateFROM

2020-06-19 11:22:16 190

原创 31题. 栈的压入、弹出序列

输入两个整数序列，第一个序列表示栈的压入顺序，请判断第二个序列是否为该栈的弹出顺序。假设压入栈的所有数字均不相等。例如，序列 {1,2,3,4,5} 是某栈的压栈序列，序列 {4,5,3,2,1} 是该压栈序列对应的一个弹出序列，但 {4,3,5,1,2} 就不可能是该压栈序列的弹出序列。class Solution: def validateStackSequences(self, pushed, popped): stack = [] i = 0

2020-06-18 09:29:47 170

原创 join列表的要求

再次强调, 当使用join进行拼接列表时, 列表中的元素必须都得是字符串类型的

2020-06-16 22:38:10 525

原创 python3 中 global nonlocal关键字

global当在函数内部想要修改全局变量的时候, 需要使用指明global, 这样内部的变量和全局的变量是指向相同的地址的, 所以修改的时候就是修改全局的变量nonlocalnonlocal 与global类似, 但是他是修饰外部非全局的变量的另外如果在嵌套内部使用global则会使这样的原始全局变量中是没有a的所以会报错, 在嵌套的内部创造了全局的变量, 并赋值, 但是外部函数的a仍是250, 并不会改变...

2020-06-16 22:31:37 306

原创 jieba分词及词性判断

import jieba.posseg as possegres = posseg.cut("我是中国人")print(type(res))for word, flag in res: print(word, flag)

2020-06-16 18:17:28 2664

原创生成器, 迭代器, 可迭代对象的关系

可迭代对象能使用 for 循环for i in obj: xxxx的都是可迭代对象生成器生成器不但可以作用于for循环，还可以通过next（）函数不断返回下一个值生成器有两种形生成器不但可以作用于for循环，还可以通过next（）函数不断返回下一个值式, 一种是将列表生成式的两侧的方括号换成圆括号; 第二种就是在函数中增加yield关键字迭代器生成器都是迭代器调用一个生成器函数，返回的是一个迭代器对象。list、tuple、dict等对象虽然是可迭.

2020-06-16 13:22:03 265

原创查看自己的tensorflow的版本和型号(cpu or gpu)

import tensorflow as tffrom tensorflow.python.client import device_libprint("版本:", tf.__version__)print("型号:", device_lib.list_local_devices())

2020-06-12 16:20:08 8520

原创 numpy不兼容

重新安装的anaconda 和 tensorflow 发现不能能运行numpy 出现这种问题RuntimeError: implement_array_function method already has a docstring重新安装numpy再重新安装matplotlib我这里可就没问题了记录一下

2020-06-12 12:07:33 1089

原创在centos7 上安装anaconda3, 启动notebook 并让外网访问

下载安装包首先通过网络下载相应的anaconda安装包到合适的目录wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2019.10-Linux-x86_64.sh直接运行 shell 命令来安装bash Anaconda3-2019.07-Linux-x86_64.sh我是用的是root用户, 默认是安装到了root的家目录这时需要使用命令souce 重新load一下该配置文件sou

2020-06-09 23:14:47 478 1

原创一使用Python 运行Spark的安装

过程主要分为五步: 安装 Anaconda 用 Anaconda 安装 Jupyter notebook 用 Anaconda 安装 PySpark 运行 Jupyter notebook 运行测试代码其中1, 2, 4很简单, 使用python的朋友们应该都是会的, 这里不再赘述3 用 Anaconda 安装 PySparkpip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple py

2020-06-08 19:03:52 456 3

原创聚类的评估指标轮廓系数

2020-06-06 15:51:39 935

原创文本文件过大时, 使用python一行一行读取

首先创建一个大于内存的文本文件, 这里创建的写了20亿个单词的文件是13G, 我的电脑内存是8Gimport randomfrom datetime import datetimestart = datetime.now()f = open("E:/big.txt", 'w', encoding="utf-8")words = ["hello", "spark", "hadoop", "world", "hive", "flink"]num = 0while True: inde

2020-06-03 23:04:43 2137

a857553315的博客