NLP
MXuDong
假如有一天我变成了流氓,请告诉别人我曾经纯真过!
展开
-
结巴分词参考地址
Git参考:https://github.com/fxsjy/jiebajieba 是一个python实现的中文分词组件,在中文分词界非常出名,支持简、繁体中文,高级用户还可以加入自定义词典以提高分词的准确率。它支持三种分词模式精确模式:试图将句子最精确地切开,适合文本分析; 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式:在精确模式...原创 2019-01-13 18:02:20 · 1046 阅读 · 0 评论 -
CNN层调参经验与Drop层、BN层的使用经验
转载地址:https://www.cnblogs.com/bonelee/p/8534560.htmlhttps://blog.csdn.net/sean2100/article/details/83834565两篇文章主要给了两个结论:结论一:CNN 文本分类模型优化经验——关键点:加卷积层和FC可以提高精度,在FC前加BN可以加快收敛,有时候可以提高精度,FC后加...原创 2019-04-06 16:38:57 · 4421 阅读 · 0 评论 -
PyTorch实现的各类论文和代码参考(安利供保存收藏)
文章地址机器之心: https://www.jiqizhixin.com/articles/102101一篇翻译,主要是关于PyTorch的内容,提供了代码支持,项目地址:https://github.com/bharathgs/Awesome-pytorch-list具体的列表如下注意:主要还是参考原文,内容还是很有意义的自然语言处理和语音处理该...原创 2019-04-06 14:39:06 · 5064 阅读 · 1 评论 -
机器学习NLP参考文章
本站整理了一些NLP的入门资料参考,建议初学者看看。需要复制链接在浏览器里打开。 1.通过kaggle比赛学习机器学习文本分类方法https://zhuanlan.zhihu.com/p/34899693?utm_medium=social&utm_source=wechat_session&from=groupmessage&isappinstalled=0&...转载 2019-02-23 15:00:41 · 381 阅读 · 0 评论 -
loss问题——工作中对出现的loss问题描述与解决参考
问题一:loss跑飞如下图描述1、学习率(lr)过大,可以自定义一个学习率的值(较小)开始学习。参考blog:https://blog.csdn.net/CHNguoshiwushuang/article/details/81784299也就是说,学习率如果设置过大,会导致其直接跑到另外一边,从而导致loss跑飞。当然真实的loss变化是在一个奇异空间里的,不是图上的那种二...原创 2019-02-23 14:49:07 · 8671 阅读 · 2 评论 -
数据不平衡问题——SMOTE算法赏析
春节前后好久没有总结问题了,这一段时间一直在做NLP的文本分类(二分类)问题,遇到了各种问题 。分别如下:1、数据打标问题。运营人手不够可把兄弟们累坏了,是我给兄弟们分的任务,别打我嘿嘿。 打标问题主要是业务不熟悉,主观上分类很容易分错,在分类的时候一定要让运营方来确定分类标准。2、数据不平衡问题。T:F为1:10,重新筛选样本以后达到了T:F为1:17。 实在是数...原创 2019-02-23 13:52:13 · 19401 阅读 · 1 评论 -
样本不平衡问题分析与部分解决办法
最近工作中在处理文本分类问题遇到了分类不均衡的问题,主要还是样本太少还同时非常的不均衡正负样本1:10(类别不平衡比例超过4:1,就会造成偏移),就使用了SMOTE方法。注意:在进行数据增广的时候一定要将测试集和验证集单独提前分开,扩张只在训练集上进行,否则会造成在增广的验证集和测试集上进行验证和测试,在实际上线后再真实数据中效果可能会非常的差。目录什么是样本类别分布不均衡?问题描...原创 2019-01-20 14:11:03 · 24295 阅读 · 6 评论 -
大规模文本分类参考(转发)
前几天在网上看到了一个blog关于大规模文本分类的内容,在这里转发保存一下。大规模文本分类实践-知乎看山杯总结 原文地址:http://coderskychen.cn/2017/08/20/zhihucup/本文主要介绍了我在知乎看山杯机器学习挑战赛中的一些实验和总结,代码已公开,传送门。阅读本篇大约需要10分钟。 尊重原创,转载请注明出处。先晒一发排名,9th,有小遗憾,但是...转载 2019-01-20 13:43:35 · 1081 阅读 · 0 评论 -
Keras—embedding嵌入层的使用
最近在工作中进行了NLP的内容,使用的还是Keras中embedding的词嵌入来做的。Keras中embedding层做一下介绍。中文文档地址:https://keras.io/zh/layers/embeddings/参数如下: 其中参数重点有input_dim,output_dim,非必选参数input_length.初始化方法参数设置后面会单独总结一下。demo...原创 2019-01-20 13:38:25 · 21568 阅读 · 6 评论 -
pytorch torch matplotlib openCV-python pytorch0.4 numpy中文文档参考地址
pytorch torch matplotlib openCV-python pytorch0.4 numpy中文文档参考地址参考地址: https://ptorch.com/news/50.html跳转 地址:PytorchTorchPytorch视频MatplotlibOpenCV-PythonPytorch0.4Numpy...原创 2019-01-13 18:19:21 · 799 阅读 · 0 评论 -
Gensim介绍
参考:https://blog.csdn.net/duinodu/article/details/76618638https://www.cnblogs.com/iloveai/p/gensim_tutorial.htmlGensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2...原创 2019-01-13 18:09:07 · 2823 阅读 · 1 评论 -
连续特征离散化参考地址
连续特征离散化:https://blog.csdn.net/ztf312/article/details/53991329https://blog.csdn.net/hellozhxy/article/details/80675229https://blog.csdn.net/oppo62258801/article/details/79271762...原创 2019-04-06 16:41:53 · 706 阅读 · 0 评论