![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 92
一江溪水
这个作者很懒,什么都没留下…
展开
-
Ubuntu安装anaconda做英文词云
Ubuntu安装anaconda做词云(1)1.词云是什么?想必大家都见过这种图片,这就是词云啦 “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于近日提出。戈登做过编辑、记者,曾担任迈阿密先驱报(Miami Herald)新媒体版的主任。他一直很关注网络内容发布的最新形式——即那些只有互联网可以采用而报纸、广播、电视等其它媒体都望尘莫及的传播方式。通原创 2017-09-03 14:33:15 · 1250 阅读 · 0 评论 -
用Python做简易的中文词云
前言在上一篇文章中,我们讲解了在Ubuntu环境下安装Anaconda,并且做出了英文的简易词云。可能会有的同学尝试把文章换成中文的,做出中文词云。我想大家得到的结果肯定是这样的中文与英文在编码上是存在很多区别的,而且我们做英文词云的时候,在一篇文章中,单词之间是通过空格分开的,但是中文并没有使用空格。所有就有了上面的图片。那么中文如何分词呢?我们需要用到一款工具,jieba(结巴)准备工作原创 2017-09-04 13:06:33 · 11786 阅读 · 3 评论 -
用正则表达式提取信息
正则表达式,说白了就是用来匹配字符的,正则表达式是用来简洁表达一组字符串的表达式. 正则表通常被用来检索、替换那些符合某个模式(规则)的文本。 很多编程语言都支持正则表达式进行字符串操作。在代码中常简写为regex、regexp或RE。 比如Pythonz中就有一个叫:re 的正则表达式库,这是Python的标准库,安装Python后自带,使用时只需要import re我们可以通过r原创 2017-09-14 20:23:15 · 11229 阅读 · 0 评论 -
用Python写网络爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,是一种按照一定 的规则,自动地抓取万维网信息的程序或者脚本。前言在讲爬虫之前,我们需要知道我们是如何从网络上获取信息的,有人说,百度啊,谷歌啊!!!!! 没错,大多时候,我们都是利用他们从网络上面获取我们的信息的,其实搜索引擎也是爬虫的一种,他们的爬每天都有成千上万的爬虫在互联网上不断的爬去各种各样的信息,存到他们的数据库,做出索引,通过复杂的算原创 2017-09-10 20:31:06 · 1280 阅读 · 0 评论