
//人工智能
AI相关程序,NLP等
沙振宇
将来的你一定会感谢现在奋斗的你。当你的才华还撑不起你的野心时,那你就应该静下心来学习。
展开
-
常见26种NLP任务的练手项目
文章目录1.分词 Word Segmentation2.词预测 Word Prediction3. 文本蕴涵 Textual Entailment4. 语音识别 Automatic Speech Recognition5. 自动摘要 Automatic Summarisation6. 文本纠错 Text Correct7.字音转换 Grapheme to Phoneme8. 复述检测 Paraph...转载 2019-12-30 12:47:40 · 21598 阅读 · 0 评论 -
Python开发 之 利用TF特征向量和Simhash指纹计算中文文本的相似度的示例
文章目录1、简介2、计算过程3、效果图4、核心代码5、此项目Github源码分享1、简介最近一直在研究NLP的文本相似度算法,本文将利用TF-IDF特征向量和Simhash指纹计算中文文本的相似度。2、计算过程准备测试数据预处理读到的数据加载数据到Map中输入用户问题利用TF特征向量和Simhash指纹计算出 预处理的配置文件中的分值3、效果图4、核心代码 try...原创 2019-12-13 11:04:24 · 11966 阅读 · 2 评论 -
Python开发 之 Sklearn的模型 和 CountVectorizer 、Transformer 保存 和 使用
文章目录1、简述2、 CountVectorizer 和 Transformer保存和加载2.1、TF-IDF词典的保存2.2、TF-IDF加载,测试新数据3、模型的保存和加载3.1、模型的保存3.2、模型的加载4、例子1、简述如果用到TF-IDF,sklearn中经常会用CountVectorizer与TfidfTransformer两个类。我们总是需要保存TF-IDF的词典,然后计算测试集...原创 2019-11-12 20:38:24 · 17067 阅读 · 1 评论 -
python开发大全、系列文章、精品教程(转)
文章目录1、简介2、分享3、python基础教程4、python应用教程5、python后台架构Django教程6、python自动化测试教程7、python网络爬虫教程8、python数据分析存储教程9、python可视化教程10、python爬虫助手11、python爬虫案例12、python机器学习算法案例13、机器学习总结14、python机器学习库教程15、python自然语言处理库教程...转载 2019-03-20 10:13:07 · 7002 阅读 · 0 评论 -
Python第三方库jieba(中文分词)入门与进阶(官方文档)
文章目录一、jieba简介二、特点三、安装说明四、算法五、主要功能1. 分词2. 添加自定义词典2.1载入词典2.2调整词典3. 关键词提取3.1基于 TF-IDF 算法的关键词抽取3.2代码示例3.3算法论文3.4基本思想4.词性标注5、 并行分词6. Tokenize:返回词语在原文的起止位置7. ChineseAnalyzer for Whoosh 搜索引擎8. 命令行分词六、延迟加载机制七...转载 2019-03-19 10:18:24 · 1749 阅读 · 0 评论 -
SVM、NN等统计学算法爆内存的解决方案
文章目录1、背景2、起因3、耗内存的原因4、解决方案5、效果1、背景这阵子一直在研究机器学习和深度学习的算法,昨天碰到了一个棘手的问题。当使用支持向量机算法时,训练样本数量达到100000条的时候,操作系统直接用“OOM Killer”将程序杀死了。我用的是CentOs系统,通常触发 Linux 内核里的 Out of Memory (OOM) killer,是因为某时刻应用程序大量请求内存导...原创 2019-02-28 11:35:05 · 9256 阅读 · 2 评论 -
机器学习 之 支持向量机(SupportVectorMachine)文本算法的精确率——升级版sklearn
目录1、背景2、效果图3、本次实验整体流程4、这里不用词向量,用TF-IDF预处理后的向量效果更好5、源代码6、知识点普及6.1支持向量机优点6.2支持向量机缺点7、Sklearn提供的SVM横向对比(没加任何参数)7.1 效果7.2 Sklearn提供的SVM算法适不适合文本分类7.3 源代码8、总结8.1 加入两个参数后的linearSVC效果提升了3%个点左右8.2 使用TF-IDF预处理向...原创 2019-02-27 10:07:11 · 8333 阅读 · 2 评论 -
机器学习 之 Liblinear中的支持向量机(SupportVectorMachine)文本算法的精确率
文章目录简介Liblinear中的效果和Sklearn中的效果对比Liblinear实验整体流程Liblinear核心源码简介最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。为了验证每个算法在每种不同样本数量的能力,就做了一下实验,本文讲的是“支持向量机”在运用Liblinear库时,在文本算法中的精准率。Liblinear中的效果和Sklearn中...原创 2019-02-22 19:18:52 · 3430 阅读 · 0 评论 -
机器学习 之 liblinear的帮助文档翻译
文章目录原文翻译整合介绍安装快速开始Scipy快速入门设计说明数据结构效用函数附加信息原文翻译原文原文翻译整合介绍Python(http://www.python.org/)是一种适合快速编程的编程语言发展。该工具为LIBLINEAR(一个库)提供了一个简单的Python接口用于支持向量机(http://www.csie.ntu.edu.tw/~cjlin/liblinear)。该界面...翻译 2019-02-21 17:05:58 · 9309 阅读 · 5 评论 -
机器学习 之 随机森林(Random Forest)文本算法的精确率
目录1、背景2、效果图3、本次实验整体流程4、这里用词向量,而不是用TF-IDF预处理后的向量5、源代码6、知识点普及6.1随机森林优点6.2 随机森林缺点1、背景最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。为了验证每个算法在每种不同样本数量的能力,就做了一下实验,本文讲的是“随机森林”在文本算法中的精准率。相关其它机器学习算法的精准率:决策树...原创 2019-02-20 14:17:29 · 13932 阅读 · 7 评论 -
机器学习 之 朴素贝叶斯(Naive Bayesian Model)文本算法的精确率
目录1、背景2、效果图3、本次实验整体流程4、这里用词向量,而不是用TF-IDF预处理后的向量5、源代码6、知识点普及6.1 朴素贝叶斯优点6.2 朴素贝叶斯缺点1、背景最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。为了验证每个算法在每种不同样本数量的能力,就做了一下实验,本文讲的是“朴素贝叶斯”在文本算法中的精准率。相关其它机器学习算法的精准率:...原创 2019-02-20 12:36:22 · 4980 阅读 · 0 评论 -
机器学习 之 K近邻(K-NearestNeighbor)文本算法的精确率
目录1、背景2、效果图3、本次实验整体流程4、这里不用词向量,而是用TF-IDF预处理后的向量5、源代码6、知识点普及6.1 K近邻优点6.2 K近邻缺点1、背景最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。为了验证每个算法在每种不同样本数量的能力,就做了一下实验,本文讲的是“K近邻”在文本算法中的精准率。相关其它机器学习算法的精准率:决策树:机...原创 2019-02-20 11:38:55 · 3665 阅读 · 0 评论 -
机器学习 之 sklearn中的支持向量机(SupportVectorMachine)文本算法的精确率
目录1、背景2、效果图3、本次实验整体流程4、这里用词向量,而不是TF-IDF预处理后的向量5、源代码6、知识点普及6.1支持向量机优点6.2支持向量机缺点1、背景最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。为了验证每个算法在每种不同样本数量的能力,就做了一下实验,本文讲的是“支持向量机”在文本算法中的精准率。相关其它机器学习算法的精准率:决策...原创 2019-02-20 11:10:04 · 3868 阅读 · 0 评论 -
机器学习 之 逻辑回归(LogisticRegression)文本算法的精确率
目录1、背景2、效果图3、本次实验整体流程4、这里用词向量,而不是TF-IDF预处理后的向量5、源代码6、知识点普及6.1逻辑回归优点6.2逻辑回归缺点1、背景最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。为了验证每个算法在每种不同样本数量的能力,就做了一下实验,本文讲的是“逻辑回归”在文本算法中的精准率。相关其它机器学习算法的精准率:决策树:机...原创 2019-02-19 15:42:16 · 8896 阅读 · 0 评论 -
机器学习 之 感知机(Perceptron)
文章目录一、简介二、模型三、感知机算法的原始形式1、理论2、实现3、效果四、感知机算法的对偶形式1、理论2、实现3、效果一、简介今天来学习下机器学习的敲门砖——感知机模型。网上查了很多中英文资料,得知感知机是在1957年由Frank Rosenblatt提出的,它被成为机器学习领域最为基础的模型。虽然是最为基础的,但是它在机器学习的领域中,有着举足轻重的地位,它是SVM(支持向量机)和NN(神...原创 2019-02-01 16:59:05 · 48291 阅读 · 0 评论 -
机器学习 之 决策树(Decision Tree)文本算法的精确率
目录背景效果图整体流程这里用词向量,而不是TF-IDF预处理后的向量源代码背景最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。为了验证每个算法在每种不同样本数量的能力,就做了一下实验,本文将的是决策树在文本算法中的精准率。效果图先看一下没有任何调参的情况下的效果吧!通过以上数据可以看出决策树在样本数量较低的情况下还不错,在样本数量在5000的时...原创 2019-01-11 19:17:06 · 17867 阅读 · 3 评论 -
人工智能 之 机器学习常用算法总结 及 各个常用分类算法精确率对比
目录简介一、监督学习1、决策树(Decision Tree,DT)2、朴素贝叶斯分类器(Naive Bayesian Model,NBM)3、最小二乘法(Least squares)4、逻辑回归(Logistic Regression)5、支持向量机(SVM)6、K最近邻算法(KNN,K-NearestNeighbor)7、集成学习(Ensemble Learning)二、无监督学习1、聚类算法2...原创 2018-12-27 21:46:38 · 35457 阅读 · 5 评论 -
人工智能 之 NLP的Precision(查准率,精确率),Recall(查全率,召回率),Accuracy(准确率)以及综合评价指标(F1-Measure)
目录简述准确率、召回率、F1AP和mAP(mean Average Precision)ROC和AUC简述机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的 工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。(注: 相对来说,IR 的 ground t...原创 2018-10-29 09:38:37 · 8139 阅读 · 2 评论 -
人工智能 之 自然语言处理(NLP)算法分类总结
一、人工智能学习算法分类人工智能算法大体上来说可以分类两类:基于统计的机器学习算法(Machine Learning)和深度学习算法(Deep Learning)总的来说,在sklearn中机器学习算法大概的分类如下:1. 纯算法类(1).回归算法 (2).分类算法 (3).聚类算法 (4)降维算法 (5)概率图模型算法 (6)文本挖掘算法 (7)优化算法 (8)...翻译 2018-08-29 14:16:37 · 48277 阅读 · 5 评论