NLP
Artoria____
All the injustices are caused by our own incompetence
展开
-
CountVectorizer & Tf-idfVectorizer & word2vec
CountVectorizer和Tf-idfVectorizer构建词向量都是通过构建字典的方式,比如在情感分析问题中,我需要把每一个句子(评论)转化为词向量,这两种方法是如何构建的呢?拿CountVectorizer来说,首先构建出一个字典,字典包含了所有样本出现的词汇,每一个词汇对应着它出现的顺序和频率。对于每一个句子来说,构建出来的词向量的长度就是整个词典的长度,词向量的每一维上都代表这一维...转载 2019-12-03 19:28:51 · 314 阅读 · 0 评论 -
情感分类实例——基于Logistics回归以及SVC
本篇博客分别将用三种模型分别进行情感分析目录一、朴素贝叶斯二、Logistics回归三、SVC在训练模型之前,先看下数据集的样子:正向评价和负向评价在两个sheet中。因此首先要将两个sheet合并并分别标注为1和0# 导入数据集import pandas as pd# 定义正向为1,负向为0dfpos = pd.read_excel('./购物评论.xlsx', sheet...原创 2019-12-03 19:22:11 · 1139 阅读 · 1 评论 -
120G+训练好的word2vec模型(中文词向量)
多人缺少大语料训练的word2vec模型,在此分享下使用268G+语料训练好的word2vec模型。训练语料:百度百科800w+条,26G+搜狐新闻400w+条,13G+小说:229G+模型参数:window=5min_count=10size=128hs=1negative=0iter=5其它参数见gensim库,执行代码为:gensim.models.Word2Ve...转载 2019-11-28 18:56:05 · 4640 阅读 · 2 评论 -
jieba + wordcloud + word2vec实例
word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。需要注意的是,word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高。下面通过一个完整的实例来看看word2vec是如何使用的。一、jieba分词...原创 2019-11-28 18:47:52 · 1357 阅读 · 0 评论 -
通过opencv获取图片轮廓
在做wordcloud时,有一个让人非常非常非常头疼的问题,就是想做那种带轮廓的wordcloud却找不到满意的轮廓图。本篇博客利用opencv中的前景提取函数grabCut(),来制作背景为白色的前景轮廓提取图。啥也不多说了,直接上代码和过程吧。方法一:# 利用矩形框来选中前景区,矩形外部为背景区域import numpy as npimport cv2from matplotl...原创 2019-11-28 16:13:31 · 1618 阅读 · 0 评论 -
One-Hot编码
目录一、什么是One-Hot二、One-Hot的优缺点三、什么情况下适合用One-Hot四、One-Hot在提取文本特征上的应用五、通过sklearn实现One-Hot参考一、什么是One-HotOne-Hot编码,又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。将类别变量转换为机器学习算法易于利用的一...原创 2019-11-26 21:28:23 · 677 阅读 · 0 评论 -
Pandas常用方法及实例
最近不管是在学习可视化还是NLP的时候,对于一些csv文件的处理显得很生疏。于是根据课上学到的内容,以及查询了一些博客文章,整理出了以下一些Pandas中十分常用的方法。目录一、数据导入读取Excel文件读取csv文件二、数据信息查看df.head(n)df.tail(n)df.shapedf.info()df.describe()s.value_counts()df.valuesdf.va...原创 2019-11-26 10:49:40 · 893 阅读 · 1 评论 -
Pandas ——(一)Pandas中的数据对象
Series和DataFrame是Pandas中最常用的两个对象。目录一、Series对象二、DataFrame对象一、Series对象Series是Pandas中最基本的对象。实际上每个Series都由两个数组组成:index它是从ndarray数组继承的Index索引对象,保存标签信息。若创建Series对象时不指定index,将自动创建一个表示位置下标的索引values保...原创 2019-10-23 21:56:42 · 1731 阅读 · 0 评论 -
SciPy —— (一)func & optimize
Scipy在NumPy的基础上增加了众多的数学计算、科学计算以及工程计算中常用的模块。接下来会对其慢慢介绍目录一、常数和函数(一)常数(二)函数二、optimize(一)非线性方程组求解(二)最小二乘拟合一、常数和函数(一)常数Scipy的constants模块包含了众多的物理常数from scipy import constants as Cprint(C.c) ...原创 2019-10-10 14:57:03 · 352 阅读 · 0 评论 -
NumPy ——(三)庞大的数据库
除了前面提到的,NumPy还提供了大量对数组进行处理的函数。接下来会对一些常用的函数进行介绍。目录一、随机数二、求和 & 平均值 & 方差一、随机数函数名功能函数名功能rand0到1之间的随机数randn标准正态分布的随机数randint指定范围内的随机数normal正态分布uniform均匀分布poisson泊松分布...原创 2019-10-04 13:45:48 · 388 阅读 · 0 评论 -
NumPy ——(二)ufunc函数
ufunc是universal function的缩写,它是一种能对数组的每个元素进行运算的函数。NumPy提供了许多ufunc函数,本篇博文主要介绍一些常见的ufunc目录一、四则运算比较运算和布尔运算一、四则运算表达式对应的ufunc函数y = x1 + x2add(x1, x2[,y])y = x1 - x2subtract(x1, x2[,y])...原创 2019-10-01 19:47:02 · 530 阅读 · 0 评论 -
Numpy ——(一)ndarray对象
ndarray英文全称:n-dimensional array object,它是存储单一数据类型的多维数组目录一、创建二、元素类型三、自动生成数组一、创建通过给array()函数传递Python的序列对象来创建数组,如果传递的是多层嵌套的序列,将创建多维数组a = np.array([1, 2, 3, 4])b = np.array((5, 6, 7, 8))c = np.arr...原创 2019-09-28 13:32:46 · 1253 阅读 · 0 评论 -
Python库之numpy库
numpy库处理的是最起初数据类型是由同种元素构成的多维数组,也就是所谓的数组。数组中的所有元素的类型必须相同,数组中元素可以用整数索引,序号从0开始。数组类型的维度叫做轴(axes),轴的个数叫做秩(rank)。例如,一维数组的秩为1,二维数组的秩为2。通常用import numpy as np引入numpy库,以免混淆一、numpy介绍numpy库常用创建数组函数有以下7个...原创 2019-05-07 13:10:05 · 515 阅读 · 0 评论