自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 kaggle——全球小麦检测

全球小麦检测 使用图像处理来检测小麦头 https://www.kaggle.com/c/global-wheat-detection 导入依赖的库 import pandas as pd import numpy as np from sklearn.model_selection import StratifiedKFold import albumentations as A from albumentations.pytorch.transforms import ToTensorV2 import

2020-08-04 23:12:50 1369 1

原创 #Datawhale_NLP Task5 基于深度学习的文本分类2

文本表示方法Parts3 word2Vec模型 语言模型+训练算法 自然语言处理最细的粒度是词语,词语是人类的抽象总结,是一种符号,对计算机而言是无法识别的。因此,要先把词语表示成可以让计算机识别并处理的数字或向量,这个过程叫做词嵌入(word Embedding)方法。 word2Vec模型 语言模型 CBOW:预测目标单词 SG:预测上下文 训练算法 Hierachical Softmax Negtive Sampling 基本思想 word2vec模型背后的基本思想是出现在上下文环境里的词进行预测

2020-07-31 23:52:58 161

原创 基于深度学习的文本分类

import pandas as pd from sklearn.metrics import f1_score train_df = pd.read_csv(’…/input/train_set.csv’, sep=’\t’, nrows=15000) train_df[‘label_ft’] = ‘label’ + train_df[‘label’].astype(str) train_df[[‘text’,‘label_ft’]].iloc[:-5000].to_csv(‘train.csv’, in

2020-07-28 09:10:34 217

原创 NLP入门之新闻文本分类竞赛——task3

一 文本数字化——向量空间模型 1.什么是One-Hot编码? ​ One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1. One-Hot表示方法示例如下 “”" 句⼦1:我 爱 北 京 天 安 ⻔ 句⼦2:我 喜 欢 上 海 { ‘我’: 1, ‘爱’:

2020-07-25 23:25:04 154

原创 NLP新闻数据读取与数据分析

数据读取 因为出现全部读取数据会出现memoryerror问题,暂未解决,因此只读取前100行。 #数据读取 import pandas as pd train_df = pd.read_csv(‘F:/学习/DW-NLP/train_set.csv’, sep=’\t’,nrows=100) ‘’’ 这里的read_csv由三部分构成: 读取的文件路径, 分隔符sep,为每列分割的字符,设置为\t即可; 读取行数nrows,为此次读取文件的行数,是数值类型(这里设置100); ‘’’ print(trai

2020-07-22 21:55:02 277

原创 Python—变量,运算符,数据类型及运算

学习内容; 1.变量,运算符与数据类型 注释 运算符 变量和赋值 数据类型转换 print()函数 2.变量类型转换 使用int(),float(),str(),chr(),ord()进行类型转换 bool(X) X为数据类型时,只要值不为0,则为True。X为容器类型:集合、元组、列表、字典时,只要不为空,则为True 利用type()和isinstance(object, class)来判断变量类型,isinstance更佳,因为承认父类继承关系 3.运算符 运算符 描述 [] [:]

2020-07-21 15:40:09 113

原创 NLP文本挖掘

NLP天池新闻文本分类—赛题 目录: 赛题理解 赛题数据 学习目标 赛题思路 赛题理解 赛题的名称: 零基础入门NLP之新闻文本类 赛题的任务: 以NLP为背景,对新闻文本进行分类,及处理一个典型的字符识别问题 赛题目标: 通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建 和模型训练等知识点。 赛题数据 赛题以匿名处理后的新闻数据为数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符

2020-07-20 15:59:04 463

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除