基于NLP的AI伪原创技术有哪些要点？

最新推荐文章于 2024-08-15 13:28:45 发布

kingson_1

最新推荐文章于 2024-08-15 13:28:45 发布

阅读量1.6k

点赞数 1

文章标签：天天AI+ 伪原创API AI写作人工智能写作

本文链接：https://blog.csdn.net/kingson_1/article/details/82840902

版权

摘要：近年来，自然语言处理行业蓬勃发展，在市场上得到广泛应用，尤其是基于NLP的AI伪原创技术。
自从我上学以来，我写了很多文章。文章的深度是不同的。今天，由于某些需要，我再次阅读文章并将它们放在一起，这也可以称为概述。博客上有关于这些问题的详细文章。本文仅是其各个部分的高级摘要。

1什么是文本挖掘？

文本挖掘是基于文本信息进行知识发现的信息挖掘研究分支。文本挖掘的准备涉及三个步骤：文本收集，文本分析和特征剪辑。目前，已经研究和应用了几种文本挖掘技术：文档聚类，文档分类和抽象提取。

2什么是自然语言处理？

自然语言处理是计算机科学和人工智能领域的重要方向。它研究了使用自然语言在人与计算机之间进行有效沟通的理论和方法。将语言学，计算机科学和数学融为一门科学。自然语言处理原理：形式化描述 - 数学建模 - 程序化 - 语音实现自动综合与识别，机器翻译，自然语言理解，人机对话，信息检索，文本分类，自动摘要等.

3普通中文分词？

中文文本和文本没有像英语这样的空格分隔。因此，许多中文文本操作涉及剪切。这里安排了一些中文分词工具。 Stanford NLP（直接使用CRF的方法，功能窗口为5）。中文分词工具（个人推荐）

HIT语言云
庖定解牛分词
盘古词词ICTCLAS（中国科学院）中文词汇分析系统
IKAnalyzer（根据Luence项目，基于java）
复旦大学（复旦大学）

4部分注释方法？解析方法？
原理描述：使用注释方法BIO注释标记文章中的句子，即语句注释。观察序列X是语料库（这里假设一篇文章，x代表文章中的每个句子，X代表x的集合），识别序列Y是BIO，即相应X序列的标识符，这样它就可以基于条件概率P（标签），猜出正确的句号。显然，这是序列状态，即CRF是标记或分区序列结构数据的概率结构模型。 CRF可以被视为无向图模型或马尔可夫随机场。对于使用过CRF的任何人来说，CRF是一个序列标签模型，它指的是用标签标记的单词序列中的每个单词。通常，围绕单词打开一个小窗口，并根据窗口中的单词和要标记的单词提取特征模板。最后，功能组合决定了需要播放哪些标签。

5命名实体识别？

三种主流算法，CRF，字典方法和混合方法1 CRF：在中国NER任务的CRF中，大多数提取的特征是中文名称，姓氏，汉字或真假字符。因此，100个姓氏的可靠列表非常重要。在国内学者进行的许多实验中，F1中表现最佳的名称可以达到90％，最差的是85％。 2字典方法：在NER中，将每个单词放在trie树中作为单词的开头再次检查它，发现它是NE。因为汉字太多，所以需要对中国三棵树进行哈希处理，而不像英语中的26.3。不同类型的命名实体的处理方式不同。例如，对于人名，执行单词级条件概率计算。中文：HIT（语言云）上海交通大学英语：stanfordner等。

当然基于NLP开发的天天AI+ 集合了各种优势，伪原创能力相当强大。