自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

RayX的博客

我的NLP学习旅程

  • 博客(12)
  • 收藏
  • 关注

原创 PyCharm 2020 config、system文件夹变动

PyCharm 2020 config、system文件夹变动...

2020-04-14 11:20:01 1749 1

原创 ngram语言模型—基于KneserNey及Modified Kneser Ney平滑

ngram语言模型—基于KneserNey平滑参考NLTK源码编写的更加清爽的基于KneserNey及Modified Kneser Ney平滑的 字粒度 ngram模型。

2019-12-19 11:14:37 2900 3

原创 hmm分词

HMM分词

2019-12-06 09:03:18 389

原创 论文阅读:Overview of the NLPCC 2018 Shared Task: Grammatical Error Correction

本文,我们综述了NLPCC 2018的语法修正(GEC)任务。详细的定义了任务的说明、训练数据以及评估方法。我们还总结了参与者的处理方法。这些方法证明了汉语语法纠错的水平。数据以及评估工具在https://github.com/zhaoyyoo/NLPCC2018_GEC提供下载。

2019-11-20 15:07:28 2769 2

原创 牛津公开课-作业2 文本分类

牛津公开课-作业2 文本分类预处理读取文档处理文本,分词,去停用词处理标签整理文本与标签做个简单的标签统计向量化文本拆分训练集与测试集定义模型训练可视化查看混淆矩阵使用Oxford CS - Deep NLP 2017https://www.cs.ox.ac.uk/teaching/courses/2016-2017/dl/使用到的库from sklearn.metrics import ...

2019-10-28 16:13:05 271

原创 牛津NLP公开课-作业1word2vec

牛津NLP公开课-作业1word2vec 对英文问题进行分词预处理 词频统计后,而后分别使用 word2vec、FastText进行训练对比两者的不同 最好进行t-SNE和k-Means的聚类可视化

2019-10-27 22:10:14 492

原创 jieba 使用笔记

jieba 使用笔记 叙述了jieba分词的一些常用方法

2019-10-27 16:15:17 1970

原创 正则表达式详解

正则表达式详解在做NLP的语言预处理时需要用到许多正则表达式,因此在这做一个笔记,方便用时查阅如果用的时 PyCharm 这里有一个快速查阅 re 的方法(CTRL+F/R)使用查找功能时 点击Regex 就能弹出一个正则表达式的摘要 便于快速查阅 内容相对丰富...

2019-10-25 21:33:32 233 1

原创 中文分词方法汇总笔记

中文分词方法和工具汇总笔记从分词难点、分词方法:传统基于字典基于词典的分词方法、、基于机器学习的分词方法进行总结

2019-10-23 16:09:40 1261

原创 机器学习评价指标

机器学习评价指标机器学习评价指标混淆矩阵准确率 (ACC)精确率 (precision)召回率(recall)F1 分数机器学习评价指标对于二类分类器/分类算法,评价指标主要有accuracy, [precision,recall,F-score,pr曲线],ROC-AUC曲线,gini系数。对于多类分类器/分类算法,评价指标主要有accuracy, [宏平均和微平均,F-score]。对...

2019-10-22 18:25:01 525

原创 自然语言处理NLP知识梳理

NLP相关知识梳理研究和应用领域研究难点学科掌握一般处理过程获取语料语料预处理特征工程模型训练模型评估模型上线应用模型重构(非必须)感谢知乎 @华天清 的总结 研究和应用领域自动分词词性标注句法分析文本分类信息抽取文本生成语音识别和生成信息检索问答系统机器翻译情感分析自动摘要文字蕴含研究难点单词的边界难界定词义的消歧句法的模糊性有瑕疵的或不规范的输入...

2019-10-21 10:45:31 968

原创 k-近邻算法 kNN

机器学习基础篇—k-近邻算法01概述工作原理一般流程python 实现概述k-近邻算法(kNN)采用策略不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高适用于数值型合标称型数据工作原理给定一个含有分类标签的样本集(如[小红——女,小明——男])输入不含标签的新数据将新数据的每个特征与样本集中对应的特征进行比较提取样...

2019-10-18 21:54:31 159

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除