Python
文章平均质量分 50
immenselee
这个作者很懒,什么都没留下…
展开
-
AI Studio-Notebook无法打开路径
Notebook中使用Shell命令# 查看当前挂载的数据集目录!ls /home/aistudio/data/#显示当前路径!pwd#使用pip来安装自己需要的package (但不支持apt-get)!pip install `jupyterthemes`#查看当前环境中安装的package!pip list --format=columns持久化安装如果需要进行持久化安装, 需要使用持久化路径, 如下方代码示例:!mkdir /home/aistudio/external-li原创 2021-05-28 08:25:19 · 692 阅读 · 0 评论 -
【译】为什么BERT有3个嵌入层,它们都是如何实现的
目录引言概览Token Embeddings作用实现Segment Embeddings作用实现Position Embeddings作用实现合成表示结论参考文献本文翻译自Why BERT has 3 Embedding Layers and Their Implementation Details引言 本文将阐述BERT中嵌入层的实现细节,包括token embeddings、segment embeddings, 和position embeddings.概览转载 2021-02-20 15:23:56 · 2391 阅读 · 0 评论 -
python 字典格式的文本写入文件,中文乱码(Unicode)的问题
最近在做命名实体识别,需要处理数据,将字典格式的标记文本写入文件然后一搜发现可以变成json再write到文件里(json.dumps),一试发现中文全部变成Unicode格式,又查如何变成中文。。。发现方法之一 json.load()…发现自己进入一个无限循环错误的转换方法import jsondict_1={'val_loss':handle_loss,'val_acc':handle_acc,'val_precision':handle_precision,'val_recall':handl原创 2021-01-12 20:27:53 · 2050 阅读 · 1 评论 -
python 最简单的异常中断方式
def build_corpus(split, make_vocab=True, data_dir="./ResumeNER"): """读取数据""" assert split in ['train', 'dev', 'test']assert 保留字 表示如果后面不符合条件 程序直接结束语法为:assert expressionhttps://www.runoob.com/python3/python3-assert.html...原创 2021-01-11 21:29:15 · 820 阅读 · 0 评论 -
doccano标注后的序列标注任务数据转录为BIO形式
doccano是一个开源的语料标注工具,其可以用来标注实体识别训练语料。但是标注之后的数据是不能直接作为训练数据的,还需要将其转录一下,下面以转录为BIO为例。1 doccano标注之后的数据格式(json){"id": 4, "text": "?生益科技主要从事覆铜板制造与销售业务,销售收入占到公司总收入的81.52%。", "meta": {}, "annotation_approver": null, "labels": [[1, 5, "ORG"], [32, 38, "NUM"]]}{"id转载 2021-01-11 11:18:51 · 3599 阅读 · 2 评论 -
命名实体识别 标注模式和常用工具下载
序列标注一般采用两种模式BIO和BIOES标签说明标签方案中通常都使用一些简短的英文字符[串]来编码。标签是打在token上的。对于英文,token可以是一个单词(e.g. awesome),也可以是一个字符(e.g. a)。对于中文,token可以是一个词语(分词后的结果),也可以是单个汉字字符。为便于说明,以下都将token试作等同于字符。标签列表如下:B,即Begin,表示开始I,即Intermediate,表示中间E,即End,表示结尾S,即Single,表示单个字符O,即O转载 2021-01-04 16:01:38 · 3569 阅读 · 0 评论 -
看python程序的时候看到一个浮点数判断为0的方法,记录一下
# 问题:如果某元素没有出现过,该位置为0,这在后续的计算中是不允许的# 解决方法:我们将等于0的概率加上很小的数self.A[self.A == 0.] = 1e-10原创 2021-01-03 16:11:46 · 2332 阅读 · 4 评论 -
crf 特征模板
crf++一:Unigram和Bigram模板分别生成CRF的状态特征函数 和转移特征函数 。其中 是标签, 是观测序列, 是当前节点位置。每个函数还有一个权值,具体请参考CRF相关资料。crf++模板定义里的%x[row,col],即是特征函数的参数 x 。举个例子。假设有如下用于分词标注的训练文件:北 N B京 N E欢 V B迎 V M你 N E其中第3列是标签,也是测试文件中需要预测的结果,有BME 3种状态。第二列是词性,不是必须的。特征模板格式:%x[row,转载 2020-12-28 08:06:17 · 1967 阅读 · 0 评论 -
使用NER_sklearn.ipynb CRF实现,出现的问题
Traceback (most recent call last): File "D:\software\Anaconda3\envs\NER\lib\site-packages\IPython\core\interactiveshell.py", line 3418, in run_code exec(code_obj, self.user_global_ns, self.user_ns) File "<ipython-input-2-71bbf22b7c9a>", line原创 2020-12-27 11:18:06 · 868 阅读 · 1 评论 -
Annotated Corpus for Named Entity Recognition 数据集下载
Context:Annotated Corpus for Named Entity Recognition using GMB(Groningen Meaning Bank) corpus for entity classification with enhanced and popular features by Natural Language Processing applied to the data set.Tip: Use Pandas Dataframe to load dataset i原创 2020-12-25 21:34:20 · 264 阅读 · 0 评论 -
python 1e-5 是什么意思
x = 1e-4print x会输出0.0001如果你想要e-5则需要写成1e-5它会输出1e-05,不是他没有变化,而是它自动将0.00001转换成1e-05你可以试一下x = 0.00001print x输出一回事1e-05#encoding=utf8import osimport pandas as pdif os.path.exists('./step2/resu...原创 2020-03-28 22:19:44 · 37835 阅读 · 0 评论 -
数据集car_sales共有2694条数据,5个字段,数据集已导入,保存在DataFrame对象data中,字段及说明如下:
数据集car_sales共有2694条数据,5个字段,数据集已导入,保存在DataFrame对象data中,字段及说明如下:列名 类型 说明Year int64 年份Month int64 月份Make object 汽车品牌Model object 车型Quantity int64 汽车销量计算数据集中出现次数最多的车型,保存在变量most_frequence中用出现次数最多的车...原创 2020-03-21 10:51:59 · 1880 阅读 · 2 评论 -
学习使用 sklearn 的模型度量方法,来量化预测结果
1. 任务描述在前面的关卡,我们已经学会了如果使用 sklearn 训练分类模型,那如何评估模型的分类效果?本关卡将学习使用 sklearn 的模型度量方法,来量化预测结果。2. 相关知识相关知识sklearn 中有三种不同的 API 来评估模型的预测质量:Estimator score method :在评估器(比如一个分类模型)中有score函数提供默认的评估标准,比如支持向量机sk...原创 2020-03-08 11:19:15 · 1732 阅读 · 0 评论 -
采用 scikit-learn 中的 svm 模型,训练一个对 digits 数据集进行分类的模型
任务描述采用 scikit-learn 中的 svm 模型,训练一个对 digits 数据集进行分类的模型。相关知识在 scikit-learn 中,对于分类问题的估计器是一个实现了fit(X, y) 和predict(T)方法的 Python 对象。估计器的实例很多,例如实现了支持向量分类的类sklearn.svm.svc。估计器的结构可以通过初始化模型时设置的参数决定,但目前,我们将估计...原创 2020-03-07 14:26:17 · 3041 阅读 · 0 评论 -
希望分别使用 CountVectorizer 和 TfidfVectorizer 对新闻文本数据进行特征提取,并验证提取是否正确
编程要求本关任务,希望分别使用 CountVectorizer 和 TfidfVectorizer 对新闻文本数据进行特征提取,并验证提取是否正确。数据介绍:采用fetch_20newsgroups("./step5/",subset='train', categories=categories)函数加载对应目录的新闻数据,subset='train'指定采用的是该数据的训练集,cate...原创 2020-03-07 13:57:37 · 1695 阅读 · 0 评论 -
新型冠状病毒传播规律离散微观模型(结果与实际情况一致)-附源码
新型冠状病毒传播规律离散微观模型0 前言1、模型1.1 个体病毒感染概率计算模型1.2 个体移动模型1.3 求解过程2 实例分析2.1...转载 2020-02-29 18:07:36 · 2278 阅读 · 0 评论 -
Pycharm快捷键设置(鼠标滚动控制字体大小)
一、pycharm字体放大的设置File —> setting —> Keymap —>在搜寻框中输入:increase —> Increase Font Size(双击) —> 在弹出的对话框中选择Add Mouse Shortcut在弹出的对话框中同时按住ctrl键和鼠标滚轮向上滑。二、Pycharm字体缩小的设置File —> setting ...转载 2020-01-13 15:22:00 · 934 阅读 · 0 评论 -
数据准备(预处理)过程中常常需要进行数据的处理,例如数据清洗包括缺失值和异常值处理,数据变换如规范化数据
数据准备(预处理)过程中常常需要进行数据的处理,例如数据清洗包括缺失值和异常值处理,数据变换如规范化数据,数据规约如属性规约(选择部分有代表性的属性)等,在Python有很多进行数据预处理的快速方法,以数据清洗中的缺失值处理为例,在实际过程中常常会发现有的数据是缺失(NaN)的,这些值是需要特别处理的。缺失值的判断可利用numpy中的isnan()函数,而对于Series或DataFrame,缺失...原创 2019-02-26 12:35:08 · 8512 阅读 · 1 评论 -
请在下面空格处填写答案(两处答案之间用一个半角分号分隔)。
请在下面空格处填写答案(两处答案之间用一个半角分号分隔)。import numpy as npa = np.arange(1, 5, dtype=np.float64)np.power(a, 2).sum()Out[]:____np.add(a, np.arange(4))Out[]:array([____])30;0,1,2,3正确答案:30;1,3,5,7 ...转载 2018-12-22 19:49:29 · 2076 阅读 · 0 评论 -
lf = [('AXP', 'American Express Company', '86.40'), ('BA', 'The Boeing Company', '122.64'), (
根据如下数据:lf = [('AXP', 'American Express Company', '86.40'), ('BA', 'The Boeing Company', '122.64'), ('CAT', 'Caterpillar Inc.', '99.44'), (‘CSCO’, ‘Cisco Systems,Inc.', '23.78'), ('CVX', 'Chevr...原创 2018-12-13 17:03:19 · 593 阅读 · 0 评论 -
Python中 {:.0f} 格式化输出,{0:^30}什么意思 . format("name"))
问题:python {0:^30}什么意思python里 {0:^30}是什么意思print(“decimal hex chr {0:^30}”.format(“name”))这种用法属于Python的格式化输出字符:{0:^30}中的0是一个序号,表示格式化输出的第0个字符,依次累加;{0:^30}中的30表示输出宽度约束为30个字符;{0:^30}中的^表示输出时右...原创 2018-10-21 18:05:03 · 53306 阅读 · 11 评论