2019.5.5Py文本数据分析

最新推荐文章于 2024-03-17 21:20:57 发布

weixin_40922555

最新推荐文章于 2024-03-17 21:20:57 发布

阅读量223

点赞数

分类专栏：学习 python ML 分类文章标签： python 文本数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40922555/article/details/89853285

版权

学习同时被 3 个专栏收录

17 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

在这里插入图片描述

计算两个句子的相似度：
句子–分词–语料库–词频–词频向量 利用向量计算相似度余弦相似度

接下来文本分类：时尚；军事；新闻；生活；文化类等等。
数据源来自搜狗实验室

名字命名了四个如下：
CTUC
head就是看一下指定的前20个或者前几个。
wordcloud库：文本可视化如下图

好玩的网址：githup/amueller/word_cloud

LDA：主题模型无监督的不知道语料是什么主题类似k-means，制定好划分为多少堆，再进行建模操作。
LDA用gensim库来实现的。

贝叶斯算法分类任务
做一个10分类的任务，但是sklearn是不认识label的，只认识0，1，…9
tips:用库的时候报错了，先看是否更新了版本，写一个简单的输入，用最简单的形式去测试一下是否有问题。没有问题按照这个写数据就可以了。

练习：
首先时是安装jieba库：打开anoconda prompt，输入pip install jieba. And
Waiting…
jieba和sklearn都可以进行关键词提取。在这里插入图片描述

同时在例子中学到了URL这个名词
Uniform Resource Locator
url是统一资源定位符，对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

pip install wordcloud

gensim

weixin_40922555

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2019.5.5Py文本数据分析

计算两个句子的相似度：句子–分词–语料库–词频–词频向量利用向量计算相似度余弦相似度接下来文本分类：时尚；军事；新闻；生活；文化类等等。数据源来自搜狗实验室名字命名了四个如下：head就是看一下指定的前20个或者前几个。wordcloud库：文本可视化如下图好玩的网址：githup/amueller/word_cloudLDA：主题模型无监督的不知道语料是什么主...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。