自然语言处理
文章平均质量分 85
周雄伟
这个作者很懒,什么都没留下…
展开
-
使用百度AI开放平台进行财经语料用户情感分析
目录一、实现过程操作步骤二、遇到的问题与解决三、详细代码一、实现过程操作步骤1、百度AI开放平台上创建应用 详细过程比较简单, 不详细描述1)到http://ai.baidu.com/上一步步注册账号2)创建一个自然语言分析下语料情感分析的应用。(根据步骤创建模型、训练、创建即可。其中涉及相关预料的获取,可以写个爬虫弄一下。 具体可以参考 https://b...原创 2019-10-13 15:41:17 · 1998 阅读 · 1 评论 -
ICTCLAS 汉语词性标注集
汉语文本词性标注标记集Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。a 形容词 取英语形容词adjective的第1个字母。ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。b 区别词 取汉字“别”的声母。c 连词 取英语连词conjunction的第1个字母。Dg 副语素 副词性语素。副词...原创 2018-05-14 10:36:06 · 3177 阅读 · 2 评论 -
python中使用jieba进行中文分词
一 “结巴”中文分词:做最好的 Python 中文分词组件 。支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词支持自定义词典MIT 授权协议 GitHub: https://github....原创 2018-05-14 02:04:07 · 40156 阅读 · 4 评论 -
机器学习环境搭建笔记
搭建一个新环境,具体过程记录如下:原创 2018-06-14 15:10:06 · 2615 阅读 · 0 评论 -
如何使用 scikit-learn 为机器学习准备文本数据
文本数据需要特殊处理,然后才能开始将其用于预测建模。我们需要解析文本,以删除被称为标记化的单词。然后,这些词还需要被编码为整型或浮点型,以用作机器学习算法的输入,这一过程称为特征提取(或矢量化)。scikit-learn 库提供易于使用的工具来对文本数据进行标记和特征提取。在本教程中,您可以学到如何使用 scikit-learn 为 Python 中的预测建模准备文本数据。完成本教...转载 2018-09-08 13:10:54 · 408 阅读 · 0 评论 -
sklearn文本特征提取与“达观杯”文本智能处理挑战赛
参加的第一个线上比赛,经历了下比赛过程, 记录下。这个比赛比较简单, 主要是要调参费时间,只提交了两次结果,下次比赛认真对待。核心思路:文本矢量化后进行逻辑回归训练。print("start....")## 导入需要的库import pandas as pdfrom sklearn.linear_model import LogisticRegressionfrom sk...原创 2018-09-08 14:29:02 · 835 阅读 · 0 评论 -
开始使用gensim入门
原文链接介绍了基本概念,以及理解和使用gensim的基本元素,并提供了一个简单的例子。核心概念和简单例子从宏观来看,gensim提供了一个发现文档语义结构的工具,通过检查词出现的频率。gensim读取一段语料,输出一个向量,表示文档中的一个词。词向量可以用来训练各种分类器模型。这三个模型是理解gensim的核心概念,所以接下来依次介绍。同时,会以一个简单例子贯穿讲述。语料语料是...转载 2018-09-19 10:26:51 · 600 阅读 · 0 评论