人工智能
文章平均质量分 89
沙振宇
将来的你一定会感谢现在奋斗的你。当你的才华还撑不起你的野心时,那你就应该静下心来学习。
展开
-
【Qt 学习之路】Jetson Orin Nx CLB 开发套件上的 Qt 部署安装
Jetson Orin Nx 解决方案是NVIDIA为嵌入式人工智能计算领域推出的一款强大而灵活的解决方案。该方案基于NVIDIA Orin芯片组,提供高度集成的硬件和软件生态系统,旨在满足嵌入式设备在性能、功耗和散热方面的苛刻要求。Jetson Orin nx解决方案具有卓越的性能和扩展性,可为各种行业应用提供高效的人工智能计算支持。随着人工智能技术的不断发展和应用场景的扩大,Jetson Orin nx解决方案将有更广阔的发展前景。原创 2024-01-22 06:30:00 · 3086 阅读 · 3 评论 -
【人工智能】自然语言处理(NLP)算法分类总结
(1).LR (Logistic Regression,逻辑回归又叫逻辑分类)(2).SVM (Support Vector Machine,支持向量机)(1).LR (Linear Regression,线性回归)(3). RR (Ridge Regression,岭回归)(3).NB (Naive Bayes,朴素贝叶斯)(4).DT (Decision Tree,决策树)(3).基于密度的聚类(DBSCAN)(1).K-Means(K均值)聚类。(2).SVR (支持向量机回归)原创 2018-08-29 14:16:37 · 51036 阅读 · 6 评论 -
【人工智能】NLP的Precision(查准率,精确率),Recall(查全率,召回率),Accuracy(准确率)以及综合评价指标(F1-Measure)
目录简述准确率、召回率、F1AP和mAP(mean Average Precision)ROC和AUC简述机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluation)是一个必要的 工作,而其评价指标往往有如下几点:准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure。(注: 相对来说,IR 的 ground t...原创 2018-10-29 09:38:37 · 10047 阅读 · 2 评论 -
【人工智能】机器学习常用算法总结 及 各个常用分类算法精确率对比
目录简介一、监督学习1、决策树(Decision Tree,DT)2、朴素贝叶斯分类器(Naive Bayesian Model,NBM)3、最小二乘法(Least squares)4、逻辑回归(Logistic Regression)5、支持向量机(SVM)6、K最近邻算法(KNN,K-NearestNeighbor)7、集成学习(Ensemble Learning)二、无监督学习1、聚类算法2...原创 2018-12-27 21:46:38 · 38808 阅读 · 6 评论 -
【人工智能】决策树(Decision Tree)文本算法的精确率
TF-IDF(词频-逆文本频率),前面的TF也就是常说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。通过以上数据可以看出决策树在样本数量较低的情况下还不错,在样本数量在5000的时候效果还可以,但是到达20000的时候,准确率已经在70%左右了。概括来讲, IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低。原创 2019-01-11 19:17:06 · 19114 阅读 · 3 评论 -
【人工智能】感知机(Perceptron)
今天来学习下机器学习的敲门砖——感知机模型。网上查了很多中英文资料,得知感知机是在1957年由Frank Rosenblatt提出的,它被成为机器学习领域最为基础的模型。虽然是最为基础的,但是它在机器学习的领域中,有着举足轻重的地位,它是SVM(支持向量机)和NN(神经网络)学习的基础,可以说它是最古老的分类方法之一了。虽然今天看来它的分类模型在大多数时候泛化能力不强,但是它的原理却值得好好研究。如果研究透了感知机模型,再学习支持向量机、神经网络,也是一个很好的起点。原创 2019-02-01 16:59:05 · 49020 阅读 · 1 评论 -
【人工智能】逻辑回归(LogisticRegression)文本算法的精确率
TF-IDF(词频-逆文本频率),前面的TF也就是常说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。2)预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。2、把整体样本按照8:2的比例,分为80%的训练集,20%的测试集。原创 2019-02-19 15:42:16 · 9973 阅读 · 0 评论 -
【人工智能】sklearn中的支持向量机(SupportVectorMachine)文本算法的精确率
Sklearn的svm算法中,LinearSVC效果是最优的。在数据量达到20000条,精确率依然在80%左右。其实SVM简单的调参后,精确率会更高。机器学习 之 支持向量机(SupportVectorMachine)文本算法的精确率——升级版sklearn。原创 2019-02-20 11:10:04 · 4118 阅读 · 1 评论 -
【人工智能】K近邻(K-NearestNeighbor)文本算法的精确率
TF-IDF(词频-逆文本频率),前面的TF也就是常说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。通过以上数据可以看出在样本数量较低的情况下还不错,在样本数量在5000的时候效果还可以,但是到达20000的时候,准确率已经在65%左右了。概括来讲, IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低。原创 2019-02-20 11:38:55 · 3973 阅读 · 1 评论 -
【人工智能】朴素贝叶斯(Naive Bayesian Model)文本算法的精确率
最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。为了验证每个算法在每种不同样本数量的能力,就做了一下实验,本文讲的是“朴素贝叶斯”在文本算法中的精准率。这里应该多跑几遍不同样本,然后把结果取平均值,每次的结果还是稍有不同的。2、把整体样本按照8:2的比例,分为80%的训练集,20%的测试集。4、接着把训练集的样本和标签统一的传入算法中,得到拟合后的模型。6、把测试集得出的词向量丢到拟合后的模型中,看得出的结果。对输入数据的表达形式很敏感,分类的性能不一定很高。原创 2019-02-20 12:36:22 · 5443 阅读 · 1 评论 -
【人工智能】随机森林(Random Forest)文本算法的精确率
TF-IDF(词频-逆文本频率),前面的TF也就是常说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。有些句子中的词,比如说“的”,几乎所有句子都会出现,词频虽然高,但是重要性却应该比 主语、宾语等低。最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。概括来讲, IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低。6、把测试集得出的词向量丢到拟合后的模型中,看得出的结果。原创 2019-02-20 14:17:29 · 14997 阅读 · 7 评论 -
【人工智能】liblinear的帮助文档翻译
Python(http://www.python.org/)是一种适合快速编程的编程语言发展。该工具为LIBLINEAR(一个库)提供了一个简单的Python接口用于支持向量机(http://www.csie.ntu.edu.tw/~cjlin/liblinear)。该界面非常易于使用,因为其用法与LIBLINEAR的用法相同。该界面是使用内置的Python库“ctypes”开发的。原创 2019-02-21 17:05:58 · 9743 阅读 · 5 评论 -
【人工智能】Liblinear中的支持向量机(SupportVectorMachine)文本算法的精确率
文章目录简介Liblinear中的效果和Sklearn中的效果对比Liblinear实验整体流程Liblinear核心源码简介最近的项目中,用到了很多机器学习的算法,每个机器学习的算法在不同的样本下的精准率是不同的。为了验证每个算法在每种不同样本数量的能力,就做了一下实验,本文讲的是“支持向量机”在运用Liblinear库时,在文本算法中的精准率。Liblinear中的效果和Sklearn中...原创 2019-02-22 19:18:52 · 3580 阅读 · 1 评论 -
【人工智能】支持向量机(SupportVectorMachine)文本算法的精确率——升级版sklearn
Sklearn的svm算法中,LinearSVC效果是最优的。原创 2019-02-27 10:07:11 · 8657 阅读 · 2 评论 -
【人工智能】SVM、NN等统计学算法爆内存的解决方案
Swap空间的作用可简单描述为:当系统的物理内存不够用的时候,就需要将物理内存中的一部分空间释放出来,以供当前运行的程序使用。那些被释放的空间可能来自一些很长时间没有什么操作的程序,这些被释放的空间被临时保存到Swap空间中,等到那些程序要运行时,再从Swap中恢复保存的数据到内存中。就是内存条的空间不够了,为了能让应用程序认为它拥有连续可用的内存(一个连续完整的地址空间),我们匀出一部分硬盘空间来充当内存使用的。通常情况下,我们会把总样本2-8分成测试集和训练集,通常也是在执行训练和测试的时候耗时的。原创 2019-02-28 11:35:05 · 9466 阅读 · 2 评论 -
【人工智能】第三方库jieba(中文分词)入门与进阶
结巴”中文分词:做最好的 Python 中文分词组件开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba有新词识别能力,但是自行添加新词可以保证更高的正确率用法: jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。原创 2019-03-19 10:18:24 · 3974 阅读 · 2 评论 -
【人工智能】Python开发相关系列文章精品教程
此文章为转载文章,这是目前为止Python开发写的较全的一篇文章,向原作者们致敬机器学习案例系列教程——算法总结机器学习案例系列教程——损失函数总结机器学习案例系列教程——优化方法总结(梯度下降法、牛顿法、拟牛顿法、共轭梯度法等)机器学习案例系列教程——距离度量方法总结机器学习案例系列教程——模型评估总结。原创 2019-03-20 10:13:07 · 7126 阅读 · 1 评论 -
【人工智能】10分钟教你学会爬虫Scrapy
Scrapy是一个非常简单方便的爬虫框架了,本篇文章一步一步的教你几分钟学会爬虫。简单了解一下Scrapy的概念。它是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。本文是讲述的全过程,会比较详细。原创 2019-04-11 20:00:17 · 19655 阅读 · 2 评论 -
【人工智能】Python常用的两种爬虫的方式 正则表达式、XPath
正在学习python的爬虫,于是爬了一下现在自己的CSDN博客的个人信息。本文讲解了我利用Python3爬取CSDN个人信息的两种方式(正则表达式、XPath)。由于CSDN也会不断的改变它的HTML代码,所以本文只是提供爬取方式哈。这篇文章中提过。只不过那篇文章讲解的是利用Scrapy框架去爬,本文讲的是直接用xpath模块的一种效果。原创 2019-04-19 17:23:51 · 8524 阅读 · 6 评论 -
【人工智能】Sklearn的模型 和 CountVectorizer 、Transformer 保存 和 使用
文章目录1、简述2、 CountVectorizer 和 Transformer保存和加载2.1、TF-IDF词典的保存2.2、TF-IDF加载,测试新数据3、模型的保存和加载3.1、模型的保存3.2、模型的加载4、例子1、简述如果用到TF-IDF,sklearn中经常会用CountVectorizer与TfidfTransformer两个类。我们总是需要保存TF-IDF的词典,然后计算测试集...原创 2019-11-12 20:38:24 · 17362 阅读 · 1 评论 -
【人工智能】Jieba分词示例
之前讲述过关于Jieba分词的内容,最近又有关于这方面的需求,于是做了一个小示例来学习。此示例先获取xlsx文件的语料内容,然后再针对语料进行分词。先上传图片到项目中,然后提交完图片之后在项目中找到图片的url。原创 2019-12-05 14:34:44 · 8755 阅读 · 0 评论 -
【人工智能】利用TF特征向量和Simhash指纹计算中文文本的相似度的示例
文章目录1、简介2、计算过程3、效果图4、核心代码5、此项目Github源码分享1、简介最近一直在研究NLP的文本相似度算法,本文将利用TF-IDF特征向量和Simhash指纹计算中文文本的相似度。2、计算过程准备测试数据预处理读到的数据加载数据到Map中输入用户问题利用TF特征向量和Simhash指纹计算出 预处理的配置文件中的分值3、效果图4、核心代码 try...原创 2019-12-13 11:04:24 · 12120 阅读 · 2 评论 -
【转载】常见26种NLP任务的练手项目
文章目录1.分词 Word Segmentation2.词预测 Word Prediction3. 文本蕴涵 Textual Entailment4. 语音识别 Automatic Speech Recognition5. 自动摘要 Automatic Summarisation6. 文本纠错 Text Correct7.字音转换 Grapheme to Phoneme8. 复述检测 Paraph...转载 2019-12-30 12:47:40 · 22665 阅读 · 1 评论