小白胖爱学习--CSDN博客

原创 NLP实战之tensorflow+字符级CNN进行THUCNews文本分类python

之前做了基于机器学习的逻辑回归和贝叶斯进行文本分类，感觉还是太简单了，今天尝试一下CNN用于文本分类：NLP实战之sklearn+逻辑回归进行THUCNews文本分类pythonNLP实战之基于sklearn+TfidfVectorizer/CountVectorizer+贝叶斯模型进行THUCNews文本分类python数据集参考前面两个文章进行下载哈~数据准备from collections import Counterimport numpy as npimport tensorflo

2020-05-24 19:36:46 8347 1

原创 Keras之ResNet v1 实现CIFAR-10图像的分类python

利用CNN处理CIFAR-10的测试精度没达到老师的要求，接下来试试Rsenet~想看完整CNN理论即建模优化过程的在这里：Tensorflow之CNN实现CIFAR-10图像的分类python，想直接下载代码的在这里：（数据有点大我没上传上去，没有数据的可以去上面那个文章里找）这里我就不赘述Resnet的原理了，直接开始实验~数据准备我们将数据准备过程放在load_data.py中：import numpy as npimport osimport sysimport pickledef

2020-05-17 15:53:07 4286 2

原创 Tensorflow之CNN实现CIFAR-10图像的分类python

这个还是18年做的，当时被老师逼着三天速成，也是无奈的很呀，哭唧唧。但是现在想想还是老师逼迫的时候效率高哈哈哈哈哈，感谢努力push我们的老师~CNN原理卷积神经网络（Convolutional Neural Network，简称CNN），是一种前馈神经网络，算是多层感知机的一个变种。由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来。它最大的优势和特点就是采用了局部链接和权值共享的方式减少权值数量，让其容易优化，也减小了过拟合风险。CNN主要由卷积层、池化层、全连接层构成，我们依次来介绍：卷

2020-05-14 14:53:52 7699 2

原创 NLP实战之sklearn+逻辑回归进行THUCNews文本分类python

上次做了NLP实战之利用贝叶斯模型进行THUCNews的文本分类，这次我们用LogisticRegression再试一试~数据依旧是采用的THUCNews数据集的子集，这个可以去上一个文章中找或者去文章后，我会放出我的程序和数据集。数据集介绍THUCNews新闻文本分类数据集，是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。完整数据自行去下哦 (地址：http://thuctc.thunlp.org/）我们采用其

2020-05-12 17:30:12 5446 1

原创 NLP实战之keras+LSTM进行京东评论情感分析python

情感分析文本情感分析（Sentiment Analysis）是自然语言处理（NLP）中常见的也是很重要的一环，又称意见挖掘、倾向性分析等。它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。它包括情感分类（情感倾向分析）、情感检索、情感抽取等。我们今天只来练一练情感分类。所谓情感分类，指的是对文本进行褒义、贬义、中性的判断。在大多应用场景下，只分为两类。例如对于“好评”和“差评”这两个词，就属于不同的情感倾向。与文本分类不同的是，情感分类不基于内容本身，而是基于文本持有的情感态度。那么基于

2020-05-11 13:03:32 14131 28

原创 NLP实战之基于sklearn+TfidfVectorizer/CountVectorizer+贝叶斯模型进行THUCNews文本分类python

首先介绍一下数据集：我们这次只是进行一个小测试，就用的THUCNews数据集的子集，这是个链接（提取码：acvu）啦啦啦。完整数据自行去下哦 (地址：http://thuctc.thunlp.org/）~我们来看看这个数据，这个数据格式呢是一个样本是一条新闻，包括类别和内容。首先我们加载数据：import pandas as pdimport jieba#%%数据加载f_train=op...

2020-03-02 16:14:13 9751 5

原创机器学习必备算法之(二)支持向量机(SVM)及Python实现

什么是支持向量机从定义上来说是在特征空间上的间隔最大化的线性分类器。…(好像很复杂的样子)…简单的来说，特征空间内，有一些数据点，我们想用一个超平面把他们分成两半，且正类和反类到这个超平面的距离要最大，这种分类模型就是支持向量机。比如，二维空间中，我找一条直线把数据点们划分为两部分，如图，B是但AC都不是。那什么是超平面呢？数学意义上是wTx+b=0,x∈Rnw^Tx+b=0,x\in R^n...

2020-02-14 15:24:58 1425

原创机器学习必备算法之(一)逻辑回归(logistics regression)及Python实现

笔者为数学系在校学生，最近系统的在复习机器学习以及一些深度学习的内容，准备开个博记录一下这个有趣又痛苦的过程~hiahiahia，主要记录机器学习的几大经典算法的理论以及Python的实现。非计算机的大神！！！代码可能不会太牛(求轻喷，暴风哭泣)。话不多说，就从逻辑回归开始吧。线性回归首先我们来说说什么是线性回归。给定一个数据集D={(x1,y1),…,(xm,ym)}D=\{(x_1,y_1...

2020-02-13 16:01:40 4097 2

原创知识蒸馏基础及Bert蒸馏模型

为了提高模型准确率，我们习惯用复杂的模型（网络层次深、参数量大），甚至会选用多个模型集成的模型，这就导致我们需要大量的计算资源以及庞大的数据集去支撑这个“大”模型。但是，在部署服务时，就会发现这种“大”模型推理速度慢，耗费内存/显存高，这时候我们又会想念“小”模型的好。那么，有没有一种方法能够尽可能继承大模型的泛化能力，又像小模型一样轻量级呢？今天来介绍一种模型压缩的方法——蒸馏（Distillation）。

2022-04-05 16:08:44 4447

原创多模态机器学习基础、应用及预训练模型介绍

早在公元前四世纪，哲学家和艺术学家提出了多模态的概念，用以定义融合不同内容的表达形式与修辞方法。在当今大数据时代，我们说数据是多源异构的：多源：数据持有方多样化。比如数据来源于问卷调查、GPS追踪、手机定位、用户使用习惯等异构：数据类型特征差异化。比如统计局每年统计的各类表格数据，以人或地区为点，聚合不同信息的结构化数据，比如以文本、图像、影像、语音为代表的需要分析处理的非结构化数据，比如地理信息、轨迹等时空数据。在深度学习盛行的今天，单一形态的数据已经不足以完成一些困难的任务，而多模态机器学习方

2022-03-06 16:38:25 8458 1

原创 bert的兄弟姐妹梳理——Roberta、DeBerta、Albert、Ambert、Wobert等

最近看了一些和bert比较像的算法，做一个简单的梳理吧，本文在已经明白bert的基础上介绍有什么改进哈，没有单独介绍bert哦~Tokenization介绍算法前说说关于token的，很多算法其实也都是基于这方面进行改进。简单来说，Tokenization是按照特定需求，把文本切分成一个字符串序列(其元素一般称为token)的过程，这个token的粒度是不一定的，可以是字符、单词甚至是句子。通常情况下，在英文中，使用的是单词或者子词（这里可以学习下BPE），中文中使用字符。事实上，粗粒度和细粒度各有优劣

2022-02-27 15:36:28 5217

原创 python 删除某文件夹内过期文件

'''*Description：删除指定目录下的过期文件*Author：Mr. Wang*Date：2020/08/12'''import datetimeimport osimport timefrom datetime import timedelta def delDir(dirPath, start_time): ''' ''' # 获取文件夹下所有文件 files = os.listdir(dirPath) # 类型list # 元

2020-08-11 22:24:39 559 1

原创 NLP实战之fasttext进行THUCNews文本分类python

计划赶不上变化快的fasttext来啦~初始化文件import jiebaimport pandas as pdimport codecsfrom tqdm import tqdm#import randomstopwords_set = set()basedir = 'D:/S/Learn/CNew/'# 分词结果文件train_file = codecs.open(basedir + 'cnews.seg.train', 'w', 'utf-8')test_file = co

2020-07-29 10:39:23 5459 1

原创 Win10+anaconda3+安装fasttext

安装fasttextfasttext安装这个大坑，我先正常pip安装的，然后报错那就只能自行下载whl文件了！地址在这里，注意找自己对应的版本，下载到\Anaconda3\pkgs，然后启动Anaconda Prompt安装~pip install （这里是自己的路径记得改）\Anaconda3\pkgs\fasttext-0.9.1-cp35-cp35m-win_amd64.whl这里说一下，我点了两次才成功，真的很莫名？？？安装之后测试一下：可以用啦~...

2020-07-27 22:11:01 2250 1

原创待填充内容-多进程学习

最近用了一点多进程,开个坑督促一下自己,小目标大下周来填坑.

2020-07-03 22:24:26 122

原创待填充内容-Linux常用操作

最近学了一些Linux操作，但是有点忙没时间记录，先埋个坑~我一定会回来填的啊啊啊啊啊啊啊

2020-06-06 20:55:22 245

原创数据降维及可视化之TSNE理论及利用sklearn对digits数据集可视化实现python

今天来简单总结一下TSNE~SNE首先来说说SNE，全称为随机相邻嵌入（Stochastic Neighbor Embedding），其将数据之间的高维的欧几里得距离转化为表示相似性的条件概率：数据点xjx_jxj与数据点xix_ixi的相似性表示为条件概率的样子pj∣ip_{j|i}pj∣i，表达为xix_ixi选择xjx_jxj作为邻居，表达式为：pj∣i=exp(−∣∣xi−xj∣∣2/2σi2)∑k≠iexp(−∣∣xi−xk∣∣2/2σi2)p_{j|i}=\frac{exp(-

2020-05-19 14:51:41 3183

原创 Anaconda3卸载、安装及tensorflow、keras等第三方模块安装

不记得是第几次重装了，每次都要找各种教程，自己记录一下，省的下次又不记得（啊！！！呸呸呸）。彻底卸载Anaconda3PS：直接卸载真的会删不干净在Anaconda Prompt输入：conda install anaconda-clean接着输入：anaconda-clean --yes对于anaconda3 ，直接运行其安装目录下的 Uninstall-Anaconda3.exe 。我还去对应的文件夹把剩余的文件夹删掉了。安装Anaconda3昂安装包是我一直留着的，大家可以去官网下

2020-05-11 22:58:54 14402 1

原创 anaconda 无法安装新环境

查了好多都说要设置清华的镜像，但是我一直都有设呀，突然就不好使了，也尝试过把.condarc文件下，default那一行删除，但是也不行。最后！！！只需要把清华镜像里的https改成http就行啦？！诡异的操作conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/conda c...

2020-03-04 17:03:36 1728

原创 anaconda不用手动装cuda和cudnn也能快速安装tensorflow-gpu

这个tensorflow的gpu版本是真的难装啊，要自己安装cuda和cudnn，我试了几次也没装对，后来找到啦简单方法，一起来看看吧~首先呢就是建立你自己的环境，我懒得搞就用的默认的，然后就是利用清华大学镜像，要不然太慢啊！！！conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/fre...

2020-02-27 11:52:31 1434

原创 Anaconda快速安装gensim和jieba

不知道我的电脑怎么肥四，用正常的pip去安装怎么都装不上gensim，又不想去官网下（超级超级慢而且经常下到一半就失败了），于是查了一下可以镜像安装，超级快的！！！直接：pip install gensim -i https://pypi.doubanio.com/simple今天想安装jieba，又出现了一样的情况，pip安不上，暴风哭泣…想到了上次的方法试了一下，没想到居然可以耶(...

2020-02-27 11:14:52 1210

NLP实战之fasttext进行THUCNews文本分类python

计划赶不上变化快的fasttext来啦~ 包括代码和分好词的训练集、测试集、停词表，测试集F1值0.941，虽然没比TextCNN高但是快啊！fasttext模块安装麻烦一点，具体看博客内容吧。

2020-07-29

NLP实战之sklearn+逻辑回归进行THUCNews文本分类python

通过对数据进行分词、停词过滤、TfidfVectorizer/CountVectorizer处理，利用sklearn中是逻辑回归对THUCNews进行分类，包含数据集

2020-05-20

NLP实战之keras+LSTM进行京东评论情感分析python

NLP实战之keras+LSTM进行京东评论情感分析python，对语料进行简单分析，然后通过jieba分词、word2vec构造词向量，通过LSTM提取情感特征，利用LR二分类，达到准确度0.91897

2020-05-19

基于Keras+Resnet_v1对cifar-10进行图像分类

利用CNN处理CIFAR-10的测试精度没达到0.9，所以来试试Rsenet~通过数据增强等处理方式，利用20层的Resnet对其进行测试，精度达到0.9139.

2020-05-17

Tensorflow之CNN实现CIFAR-10图像的分类python

文件中原始代码利用CNN对CIFAR10数据集进行分类，准确度达到0.67，优化代码通过权重正则化、数据增强，增加全连接层等方式进行优化，准确度达到0.85。

2020-05-17

NLP实战之sklearn+逻辑回归进行THUCNews文本分类python

通过对数据进行分词、停词过滤、TfidfVectorizer/CountVectorizer处理，利用sklearn中是逻辑回归进行分类

2020-05-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人