python
文章平均质量分 88
左岸Jason
这个作者很懒,什么都没留下…
展开
-
NLP-基于机器学习的文本分类-垃圾邮件分类
目录一、文本分类的步骤二、提取特征的经典方法三、分类器方法1.朴素贝叶斯(Naive Bayesian, NB)2.逻辑回归(Logistic Regression, lR)3.支持向量机(Support Vector Machine, SVM)四、垃圾邮件分类实战代码一、文本分类的步骤定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据。数据预处理:对文档做分词、去停用词等准备工作。数据提取特征:对文档矩阵进行降维,提取训练集中最有用的特征。模型训练阶段:选择具体的分类模型以及算法,原创 2021-12-03 18:21:56 · 3395 阅读 · 0 评论 -
NLP-关键词提取
gensim进行LSI LSA LDA主题模型,TFIDF关键词提取,jieba TextRank关键词提取#提取关键词 Jieba+Gensimimport mathimport jiebaimport jieba.posseg as psgfrom gensim import corpora,modelsfrom jieba import analyseimport functools# 加载停用词def get_stopword_list():# 停用词表的存储路径,每一行为一个词原创 2021-11-17 11:38:04 · 1905 阅读 · 1 评论 -
NLP-二分类的应用-区分外卖评论好评/差评
目录一、概念二、二分类实战-划分好评/差评1.处理步骤2.实战代码一、概念文本分类一般可以分为二分类、多分类、多标签分类三种情况。二分类是指将一组文本分成两个类(0或1),比较常见的应用如垃圾邮件分类、电商网站的用户评价数据的正负面分类等,多分类是指将文本分成若干个类中的某一个类,比如说门户网站新闻可以归属到不同的栏目中(如政治、体育、社会、科技、金融等栏目)去。多标签分类指的是可以将文本分成若干个类中的多个类,比如一篇文章里即描写政治又描写金融等内容,那么这篇文章可能会别贴上政治和金融两个标签原创 2021-11-17 11:13:30 · 6638 阅读 · 17 评论 -
中文分词工具jieba使用-高频热词提取
目录一、概念二、使用1.基本2.实战-高频热词提取一、概念近年来,随着NLP技术的日益成熟,开源实现的分词工具越来越多,如Ansj、盘古分词等。本文选择的是更易上手的Jieba做简单介绍。原理:Jieba分词结合了基于规则和基于统计这两类方法。首先基于前缀词典进行词图扫描,前缀词典是指词典中的词按照前缀包含的顺序排列,例如词典中出现了“上”,之后以“上”开头的词都会出现在这一部分,例如“上海”,进而会出现“上海市”,从而形成一种层级包含结构。如果将词看作节点,词和词之间的分词符看作边,那么一种分词方原创 2021-11-09 16:12:43 · 6023 阅读 · 0 评论 -
Python实现聊天机器人
# -*- coding:utf-8 -*-import reimport urllib.requestdef robot(): while True: x = input("主人:") x = urllib.parse.quote(x) link = urllib.request.urlopen( "h...原创 2020-05-07 15:37:46 · 405 阅读 · 2 评论