python文本分析之jieba分词工具

一年前老师给了我一个文本数据分析的项目,所以稍微了解了一下中文文本分析的非常浅显的知识,在此做一下记录。因为自然语言处理这一块我只是为了完成项目而做了一些了解,所以肯定有不太对的地方,谅解一下啦~、

 

---------------------一个假的目录----------------------

自己对于文本分析的理解

文本分析的流程

jieba分词工具涉及到的算法原理简介(自己的浅显理解)

jieba分词工具的用法

 

1自己对于文本分析的理解

文本分析就是从一段文字性数据中,阅读理解出作者的意思,比如好恶、倾向、情绪等等或是分析文本的客观类别(比如电影的类型)。使用到的领域是非常多的,比如论文打分系统、判断论文有没有抄袭的系统、舆情分析、股民情绪分析等等。

我最近接触到的呢就是文本按照类型聚类、文本相似度分析、从论坛或者新闻中分析出股民的情绪等等课题,需要使用到的文本数据处理工具和算法最多的就是jieba分词工具、一些词典、TF-IDF、余弦相似度算法,真的是自然语言处理中最基础的部分啦。(所以我的记录真的是纯菜鸡的记录♪(^∇^*)   嘻嘻)

2文本分析的流程

所有文本分析课题的流程都逃不开这几步:(自我感觉哈)

数据收集

数据清洗

文本向量化

模型训练

分析结果

这几步中的每一步里面涵盖的很多问题都把我整的晕头转向.....数据收集涉及到爬虫、清洗涉及到分词、去重、删除或者填补空值和错值、提取关键词汇等步骤,向量化又是另一个long long long story了...里面涉及了无监督算法、有监督算法、词典之类的东西,模型训练就更别提那么多种机器学习模型和统计模型了.....等做到分析结果的时候,要是结果不如意还得重新来....终于知道自己头发怎么没有的了,真是苍天告诉我不要认输.......(灬ꈍ ꈍ灬)

哈哈,内容是不是超级多,不过文章篇幅有限(懒),这里我只把学习到的数据清洗中的分词和关键词提取方法做个简单的介绍~

3jieba分词工具涉及到的算法原理简介(自己的浅显理解)

jieba中文分词工具,就是把文章中的句子分成一个个的词汇的工具(废话!),这个工具包可以分词、计算词频、标注词性、计算TF-IDF值、提取关键词,还支持繁体分词,可以加载自定义词典,所以对于中文文本分析来说是一个非常的实用的工具包。

它支持三种分词模式:

  • 精确模式,试图将句子最精确地切开,适合文本分析;
  • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
  • 搜索引擎模式,在精确模式的基础上,对长词再次切分,
  • 16
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值