- 博客(7)
- 收藏
- 关注
原创 kaggle——全球小麦检测
全球小麦检测 使用图像处理来检测小麦头 https://www.kaggle.com/c/global-wheat-detection 导入依赖的库 import pandas as pd import numpy as np from sklearn.model_selection import StratifiedKFold import albumentations as A from albumentations.pytorch.transforms import ToTensorV2 import
2020-08-04 23:12:50
1369
1
原创 #Datawhale_NLP Task5 基于深度学习的文本分类2
文本表示方法Parts3 word2Vec模型 语言模型+训练算法 自然语言处理最细的粒度是词语,词语是人类的抽象总结,是一种符号,对计算机而言是无法识别的。因此,要先把词语表示成可以让计算机识别并处理的数字或向量,这个过程叫做词嵌入(word Embedding)方法。 word2Vec模型 语言模型 CBOW:预测目标单词 SG:预测上下文 训练算法 Hierachical Softmax Negtive Sampling 基本思想 word2vec模型背后的基本思想是出现在上下文环境里的词进行预测
2020-07-31 23:52:58
161
原创 基于深度学习的文本分类
import pandas as pd from sklearn.metrics import f1_score train_df = pd.read_csv(’…/input/train_set.csv’, sep=’\t’, nrows=15000) train_df[‘label_ft’] = ‘label’ + train_df[‘label’].astype(str) train_df[[‘text’,‘label_ft’]].iloc[:-5000].to_csv(‘train.csv’, in
2020-07-28 09:10:34
217
原创 NLP入门之新闻文本分类竞赛——task3
一 文本数字化——向量空间模型 1.什么是One-Hot编码? One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1. One-Hot表示方法示例如下 “”" 句⼦1:我 爱 北 京 天 安 ⻔ 句⼦2:我 喜 欢 上 海 { ‘我’: 1, ‘爱’:
2020-07-25 23:25:04
154
原创 NLP新闻数据读取与数据分析
数据读取 因为出现全部读取数据会出现memoryerror问题,暂未解决,因此只读取前100行。 #数据读取 import pandas as pd train_df = pd.read_csv(‘F:/学习/DW-NLP/train_set.csv’, sep=’\t’,nrows=100) ‘’’ 这里的read_csv由三部分构成: 读取的文件路径, 分隔符sep,为每列分割的字符,设置为\t即可; 读取行数nrows,为此次读取文件的行数,是数值类型(这里设置100); ‘’’ print(trai
2020-07-22 21:55:02
277
原创 Python—变量,运算符,数据类型及运算
学习内容; 1.变量,运算符与数据类型 注释 运算符 变量和赋值 数据类型转换 print()函数 2.变量类型转换 使用int(),float(),str(),chr(),ord()进行类型转换 bool(X) X为数据类型时,只要值不为0,则为True。X为容器类型:集合、元组、列表、字典时,只要不为空,则为True 利用type()和isinstance(object, class)来判断变量类型,isinstance更佳,因为承认父类继承关系 3.运算符 运算符 描述 [] [:]
2020-07-21 15:40:09
113
原创 NLP文本挖掘
NLP天池新闻文本分类—赛题 目录: 赛题理解 赛题数据 学习目标 赛题思路 赛题理解 赛题的名称: 零基础入门NLP之新闻文本类 赛题的任务: 以NLP为背景,对新闻文本进行分类,及处理一个典型的字符识别问题 赛题目标: 通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建 和模型训练等知识点。 赛题数据 赛题以匿名处理后的新闻数据为数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符
2020-07-20 15:59:04
463
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人