自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 面向对象的五条原则

一切东西都是对象;程序就是对象的集合;每个对象都有自己的内存;每个对象都有类型;所有特定类型的对象可以接收相同的信息,也就是说,所有可以接收相同信息的对象可以被认为是相同的类型;...

2022-01-22 14:26:27 224

原创 gensim中word2vec中关于syn0

syn0数组实际上保存了原始的单词向量。从用于训练单词向量的神经网络的角度来看,这些向量是一个“投影层”,可以将单词的一次性编码转换为正确维度的密集嵌入向量。在gensim4.0.0之后,想要获得与model.syn0一样的输出需要使用:model.wv.vectors...

2021-10-24 16:31:17 817

原创 AttributeError: ‘Word2Vec‘ object has no attribute

model.wv.doesnt_match('man woman child kitchen'.split())model后加wv

2021-10-22 16:53:22 2866 1

原创 基于远程监督的数据集构造过程

• 步骤1: 从知识库(如Freebase)中为目标关系识别尽可能多的实体对。• 步骤2: 对于每个实体对,利用实体链接从大规模文本中抽取提及该实体对的句子集合,并为每个句子标注相应的关系。• 步骤3: 包含实体对的句子集合和关系类型标签构成了关系抽取的标注集,即实体对的训练数据为相应的句子,标签为知识库中的关系类型。...

2021-08-07 17:43:05 806

原创 为什么过拟合和欠拟合的model都会造成误差?误差的来源是哪两个方面?

我们假设每一个model都是对数据的一种拟合,而多个model最终是会形成一个“平均model”的。这个平均model的位置与“真实model”之间的差距就是bias偏移量。而bias偏移量又是真正衡量一个“model”是否有用的重要衡量标准。所以bias偏移量越大,模型越垃圾。而高阶model往往会造成其bias偏移量较小(至于这个现象的原因是为什么需要数学解释)。从而导致高阶model(或者说是复杂model)的模型更贴合于数据的真实分布。但是当我们用新的测试集在高阶model上进行预测时,由于高阶mo

2021-04-24 09:13:36 1019

原创 pytorch中的 model.train()和 model.eval()

(1) model.train()在使用pytorch构建神经网络的时候,训练过程中会在程序上方添加一句model.train(),作用是启用BatchNormalization和 Dropout,将BatchNormalization和Dropout置为True(2) model.eval()不启用 BatchNormalization 和 Dropout,将BatchNormalization和Dropout置为False...

2021-04-17 21:48:28 281

原创 os创建文件夹

if not os.path.exists('..'): # os.mkdir创建一个,os.makedirs可以创建路径上多个 os.makedirs('..')

2021-04-14 16:43:22 2313

原创 开源python库,cnradical获取一个字的偏旁部首和拼音

这一段时间在做自然语言处理,过程中在做NER的时候需要获取偏旁部首和拼音。尝试了cnradical库,十分好用,并且是开源的,直接在terminal进行pip即可。

2021-04-14 13:53:31 1580 3

原创 python中的一些切片

一、对于一维序列的切片sname[start:end:step] # 左闭右开# 其中start是切片初始位置,如果不指定,默认为0;# end是切片的截止位置,如果不指定,则默认为序列的长度,# step是切片的步长,默认为1。二、二维序列的切片import numpyx=numpy.arange(1,13)a=x.reshape(4,3) #二维数组#切片的使用d=a[:,:] #获取所有行与列e=a[:,1] #获取所以

2021-04-13 15:20:38 75

转载 opencv机器学习中运用

repost一篇文章说明https://www.cnblogs.com/silence-cho/p/10926248.html

2021-04-12 00:31:19 68

原创 os系统上通过ssh连接Linux远程服务器命令行

一、terminal里sudo su -二、后ssh 服务器用户名@ip -p 端口号(如:ssh root@000.000.000.00 -p 22)(在此前最好先ping一下ip看能不能ping到,可以ping到的话再连接)

2021-04-11 23:00:54 202

转载 python中列表、元组、字典和集合的区别

一、列表1.任意对象的有序集合列表是一组任意类型的值,按照一定顺序组合而成的2.通过偏移读取组成列表的值叫做元素(Elements)。每一个元素被标识一个索引,第一个索引是0,序列的功能都能实现3.可变长度,异构以及任意嵌套列表中的元素可以是任意类型,甚至是列表类型,也就是说列表可以嵌套4.可变的序列支持索引、切片、合并、删除等等操作,它们都是在原处进行修改列表5.对象引用数组列表可以当成普通的数组,每当用到引用时,Python总是会将这个引用指向一个对象,所以程序只需处理对象的操作。当

2021-04-10 19:22:24 2561

原创 取消selenium的自动弹窗

在使用selenium爬取数据的过程中,Chrome会自动弹出,通过以下方法对selenium进行设置,爬取过程中不会挑出弹窗了option = webdriver.ChromeOptions()option.add_argument('headless') # option设置driver = webdriver.Chrome(options=option) # 调用带有option参数的浏览器driver.get("http://www.cnki.com.cn")...

2021-04-10 12:34:49 1270 1

原创 交叉熵损失函数(Cross_entropy loss)的梯度下降法中w和b的梯度问题

# 计算梯度值(?)def gradient(X, Y_label, w, b): # This function computes the gradient of cross entropy loss with respect to weight w and bias b. y_pred = forward(X, w, b) pred_error = Y_label - y_pred w_grad = -np.sum(pred_error * X.T, 1) b_

2021-04-08 23:46:25 1596

原创 李宏毅2020机器学习HW_2:Classification(via.MBGD)

"""author: Andrew_Wangdate:(start): 2021/4/8 15:57Algorithm:BGD(Mini-batch)"""import numpy as npimport matplotlib.pyplot as plt"""_shuffle:打乱数据顺序,类似于重新洗牌,进行分批次训练(即每次将一部分数据给模型进行训练,计算损失)_sigmoid:激活函数_f(X,w,b):向前传播,计算激活值_predict(X, w, b):预测_accu

2021-04-08 22:54:58 264 1

原创 李宏毅2020机器学习HW_1:Regression(via.Adam)

"""author: Andrew_Wangdate:(start): 2021/4/6 20:26Algorithm:Adam"""import numpy as npimport pandas as pdimport mathimport matplotlib.pyplot as pltimport Tese_setimport csvimport torch# 任务:由前9个小时的18个特征,预测第10个小时的PM2.5(PM2.5是第10个特征)# 训练数据:train

2021-04-08 22:53:01 222

原创 python中enumerate的用法

一、描述enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。>>>seasons = ['Spring', 'Summer', 'Fall', 'Winter']>>> list(enumerate(seasons))[(0, 'Spring'), (1, 'Summer'), (2, 'Fall'), (3, 'Winter')]>>> list

2021-04-08 21:53:34 123

原创 Python机器学习——对数据集进行shuffle

def shuffle(X, Y): # This function shuffles two equal-length list/array, X and Y, together. # 假设len = 100,randomize就是一个0-99的列表 randomize = np.arange(len(X)) # 对randomize列表进行shuffle打乱,使0-99重排 np.random.shuffle(randomize) # 返回X和Y,下标是s

2021-04-08 17:01:42 804

原创 selenium+xpath爬取知网空间

selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成 .Net、Java、Perl等不同语言的测试脚本一、

2021-04-06 14:55:54 332

原创 Pycharm下关于selenium+ChromeDriver的环境配置(Mac.os)

在爬虫过程中计划用selenium对点击过程进行模拟,浏览器配置为Chrome。selenium的安装较为简单,直接cmd中pip或者是在python interpreter里面进行安装即可,过程很快,但是在配置Chromedriver的过程中遇到了一些问题报错如下:'chromedriver' executable needs to be in PATH os是exe文件存放的路径问题。在网上查询相关信息,是需要将其放在目录user/local/bin下。但是不知道什么原因,我的mac没有直接

2021-04-06 13:34:05 950

原创 openyxl两种情况下的写入用法

一、数据的直接插入(Excel已存在,test.xlsx)def data_write(file_path, datas): # ***********************************通过openyxl进行Excel的写入,没发现问题*************************************** wb = openpyxl.Workbook() ws = wb.active # 默认插在最后 ws.title = 'demo_sheet1'

2021-04-06 11:30:01 479

原创 XML和HTML的区别

XML:可扩展标记语言,标准通用标记语言的子集,简称XML。是一种用于标记电子文件使其具有结构性的标记语言。HTML:HTML的全称为超文本标记语言,是一种标记语言。它包括一系列标签.通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。XML和HTML的一系列区别(1)XML 不是要替换 HTML;实际上 XML 可以视作对 HTML 的补充。XML 和 HTML

2021-03-31 21:13:14 541

原创 Stanfordnlp在pycharm上运行遇到的问题

/Users/shuaishuairan/PycharmProjects/pythonProject/venv/bin/python /Users/shuaishuairan/PycharmProjects/pythonProject/HW0.pyTraceback (most recent call last):File “/Users/shuaishuairan/PycharmProjects/pythonProject/HW0.py”, line 1, in from stanfordcoren

2021-03-29 15:37:29 341

原创 深度学习中常用的Adam算法

一、Adam算法Adam(Adaptive momentum)是一种自适应动量的随机优化方法(A method for stochastic optimization),经常作为深度学习中的优化器算法。二、算法详细步骤引用三、Adam优化算法的基本机制Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率(即 alpha)更新所有的权重,学习率在训练过程中并不会改变。而 Adam 通过计算梯度的***一阶矩估计***和***二阶矩估计***而为不同的参数设计独立的自适应性学习

2021-03-20 16:05:43 12064 2

原创 机器学习中的矩阵向量求导

求导定义与求导布局:https://www.cnblogs.com/pinard/p/10750718.html矩阵向量求导之定义法:https://www.cnblogs.com/pinard/p/10773942.html矩阵向量求导之微分法:https://www.cnblogs.com/pinard/p/10791506.html矩阵向量求导链式法则:https://www.cnblogs.com/pinard/p/10825264.html矩阵对矩阵的求导:https://www

2021-03-18 11:05:41 52

原创 应用Eclipse编写Spark应用程序(via.Scala)

Eclipse是一种常用的集成开发环境,也支持搭建Scala语言开发环境。本文将介绍Eclipse的配置安装,以及在Eclipse上创建Spark项目的方法。特别说明:Eclipse目前不支持Spark项目打包。第一步,下载并解压Eclipse安装包;第二步,下载并解压Eclipse的Scala插件安装包。Eclipse安装步骤主要为:解压Eclispe安装包。在Eclipse安装包的存放目录下,打开终端,输入命令: sudo tar zxvf eclipse-jee-oxygen-3a-li

2021-03-17 17:40:30 559

原创 cd: string not in pwd的解决办法

在终端命令行中输入:(base) shuaishuairan@wanghaorandeMacBook-Air ~ % cd /Users/shuaishuairan/Desktop/Computer Science/spark-3.1.1-bin-hadoop2.7/bin发生如下错误:cd: string not in pwd: /Users/shuaishuairan/Desktop/Computer解决办法:文件路径名中空格导致识别错误,加上转义字符或者更改文件名即可...

2021-03-17 17:02:09 1430

转载 《Neural Networks and Deep Learning》读书笔记:最简单的识别MNIST的神经网络程序

https://www.codelast.com/原创-《neural-networks-and-deep-learning》读书笔记:最简单的识别mnist的神/https://www.codelast.com/原创-《neural-networks-and-deep-learning》读书笔记:最简单的识别mnist的神-2/

2021-03-17 15:58:05 81

转载 python中map()函数的用法讲解

map函数的原型是map(function, iterable, …),它的返回结果是一个列表。参数function传的是一个函数名,可以是python内置的,也可以是自定义的。参数iterable传的是一个可以迭代的对象,例如列表,元组,字符串这样的。这个函数的意思就是将function应用于iterable的每一个元素,结果以列表的形式返回。注意到没有,iterable后面还有省略号,意思就是可以传很多个iterable,如果有额外的iterable参数,并行的从这些参数中取元素,并调用funct

2021-02-22 17:16:43 469

原创 python中pandas的透视表pivot_table

透视表是一种可以对数据动态排布并且分类汇总的表格格式。函数原型如下:pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')在pivot_table中有四个最重要的参数:index、values、columns、aggfunc详见https://www.cnblogs.com/Yan

2021-02-22 16:38:42 128

原创 关于Error tokenizing data. C error: Calling read(nbytes) on source failed. Try engine=‘pyth的错误

import pandas as pd import matplotlib.pyplot as pltimport numpy as npfilename = '/Users/shuaishuairan/Desktop/Kaggle_Data/competitive-data-science-predict-future-sales'sales_train = pd.read_csv(filename)Error tokenizing data. C er

2021-02-19 17:52:56 5152

原创 python中numpy的sort()排序

1、按行排序axis = 1 或为默认值 x = np.array([[51,12,31], [4,15,6], [30,11,12]]) print(np.sort(x, axis=1))[[12 31 51] [ 4 6 15] [11 12 30]]2、按行排序axis = 1 或为默认值 x = np.array([[51,12,31], [4,15,6], [30,11,12]]) print(np.sort(x, axis=0))[[ 4 11 6] [30 12

2021-02-17 11:10:12 2599

原创 python中numpy的ravel()降维

x = np.array([[1,2,3], [4,5,6]])print(x.ravel())[1 2 3 4 5 6]x = np.array([[1,2,3], [4,5,6], [10,11,12]])print(x.ravel())[ 1 2 3 4 5 6 10 11 12]

2021-02-17 11:01:26 1286

原创 python中numpy的冒号

>>> x = [1,2,3,4,5,6]>>> print(x[:-1])### 除了最后一个元素,取剩下全部(取到最后一个为止)[1, 2, 3, 4, 5]>>> print(x[:-2])### 除了最后两个元素,取剩下全部(取到倒数第二个为止)[1, 2, 3, 4]>>> print(x[-1:])### 从最后一个开始取一个[6]>>> print(x[::-1]))### 从最后一个取,并

2021-02-16 17:25:03 144

原创 Hash表在java中的实现

package NoteBook;import java.util.HashMap;import java.util.Scanner;public class Coin { private HashMap<Integer, String> coinnames = new HashMap<Integer, String>(); public Coin() { coinnames.put(1, "penny"); coinnames.put(10, "dime"

2021-02-06 12:05:59 61

转载 了解Python中的scikitlearn PCA

https://www.cnblogs.com/pinard/p/6243025.html

2021-01-28 20:59:05 94

转载 Java中的构造函数

一、什么是构造函数Java构造函数,也叫构造方法,是JAVA中一种特殊的函数。与函数名相同,无返回值。作用:一般用来初始化成员属性和成员方法的,即new对象产生后,就调用了对象的属性和方法。在现实生活中,很多事物一出现,就天生具有某些属性和行为。比如人一出生,就有年龄、身高、体重、就会哭;汽车一出产,就有颜色、有外观、可以运行等。这些,我们就可以将这些天然的属性和行为定义在构造函数中,当new实例化对象时,也就具有这些属性和方法,不用再去重新定义,从而加快编程效率。构造函数是对象一建立就运行,给对

2021-01-28 11:18:41 360 1

转载 python中sklearn.datasets.make_blobs()函数用法

make_blobs方法:sklearn.datasets.make_blobs(n_samples=100,n_features=2,centers=3, cluster_std=1.0,center_box=(-10.0,10.0),shuffle=True,random_state=None)make_blobs函数是为聚类产生数据集,产生一个数据集和相应的标签n_samples:表示数据样本点个数,默认值100n_features:是每个样本的特征(或属性)数,也表示数据的维度,默认值是2

2021-01-27 19:18:38 4374 1

原创 python中的plt.rcParams

python中的matplotlib plt.rcParams# 生成数据x = np.linspace(0, 4*np.pi)y = np.sin(x)plt.rcParams['figure.figsize'] = (5.0, 4.0) # 显示图像的最大范围plt.rcParams['image.interpolation'] = 'nearest' # 差值方式,设置 interpolation styleplt.rcParams['image.cmap'] = 'gray'

2021-01-27 14:48:15 4800

原创 python中scipy里stats.binned_statistic的用法

以下是函数原型定义:scipy.stats.binned_statistic_2d(x, y, values, statistic=‘mean’, bins=10, range=None, expand_binnumbers=False)函数为给定的二维数据计算合并的统计值。它的工作原理类似于histogram2d。直方图功能使箱子计数为零。每个箱子中的点数;此函数计算每个仓的值的总和,均值,中位数,计数或其他统计量。Parametersx(N,) array_likeA sequence of v

2021-01-26 21:26:50 1589

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除