自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

FontTian的博客

【数据启示录】数据是现实世界的一种表现形式,也是我们认识世界,改造现实的燃料。

  • 博客(9)
  • 资源 (5)
  • 收藏
  • 关注

原创 Python + wordcloud + jieba 十分钟学会生成中文词云

代码部分来源于其他人的博客,但是因为bug或者运行效率的原因,我对代码进行了较大的改变代码第一部分,设置代码运行需要的大部分参数,你可以方便的直接使用该代码而不需要进行过多的修改第二部分为jieba的一些设置,当然你也可以利用isCN参数取消中文分词第三部分,wordcloud的设置,包括图片展示与保存如果你想用该代码生成英文词云,那么你需要将isCN参数设置为0,并且提供英文的停用词表,但是我更推荐你使用Python词云 worldcloud 十五分钟入门与进阶。

2017-05-27 17:00:10 51430 28

原创 Python中文分词 jieba 十五分钟入门与进阶

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐写这篇文章花费两个小时小时,阅读需要十五分钟,读完本篇文章后您将能上手jieba下篇博文将介绍将任意中文文本生成中文词云同时如果你希望使用其它分词工具,那么你可以留意我之后的博客,我会在接下来的日子里发布其他有关内容.

2017-05-27 16:21:04 95200 40

原创 Python词云 wordcloud 十五分钟入门与进阶

基于Python的词云生成类库,很好用,而且功能强大.博主个人比较推荐写这篇文章花费一个半小时,阅读需要十五分钟,读完本篇文章后您将能上手wordcloud中文词云与其他要点,我将会在下一篇文章中介绍这段代码主要来自wordcloud的github,你可以在github下载该例子""""""Parameters----------"""Parameters----------"""try:"""# 自定义所有单词的颜色。

2017-05-26 23:39:55 94366 18

原创 docker 的mysql镜像使用手册 官网原文 日期2017-05-25

原文地址Supported tags and respective Dockerfile links8.0.1,8.0, 8 (8.0/Dockerfile)5.7.18,5.7, 5, latest (5.7/Dockerfile)5.6.36,5.6 (5.6/Dockerfile)5.5.56,5.5 (5.5/Dockerfile)Quick refer

2017-05-25 13:05:09 2328

原创 pynlpir.LicenseError: Your license appears to have expired. Try running "pynlpir update".

本篇讲的是Python环境,但是其他环境原理相同 但是如果你使用的java环境,或许 JAVA环境 解决NLPIR的License过期问题 可以更好地帮助你执行代码import pynlpirpynlpir.open()str = '欢迎科研人员、技术工程师、企事业单位与个人参与NLPIR平台的建设工作。'print(pynlpir.segment(str))后,出现pynlpir.Licen

2017-05-24 18:48:40 7092 3

原创 朴素贝叶斯分类器(Navie Bayesian Classifier)中的几个要点(一)

关键字:拉普拉斯修正(Laplacian correction)懒惰学习(lazy leanring)对数似然(log-likelihood)拉普拉斯修正(Laplacian correction)朴素贝叶斯分类器的训练:基于训练集D 来估计类先验概率P(y)基于训练集D 为每个属性估计条件概率P(x|y)因此当在某个训练集中,样本的一条特征值 EV 出现概率为 0 时,则会使计算的先

2017-05-18 13:20:45 2909

原创 OpenCV的k - means聚类 -对图片进行颜色量化

 OpenCV的k - means聚类目标学习使用cv2.kmeans()数据聚类函数OpenCV理解参数输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列。 nclusters(K):数量的集群需要结束 标准:这是迭代终止准则。 当这个标准是满足,算法迭代停止。 实际上,它应该是一个元组的三个参数。 他们是( ...

2017-05-16 20:08:18 8179

翻译 OpenCV官方文档 理解k - means聚类

理解k - means聚类目标在这一章中,我们将了解k - means聚类的概念,它是如何工作等。理论我们将这个处理是常用的一个例子。t恤尺寸问题考虑一个公司要发布一个新模型的t恤。 显然他们将不得不制造模型满足人们各种尺寸的大小不同。 所以公司的数据甚至€™身高和体重,并把它们放到图,如下:公司无法为所有的尺寸制作衣服。 相反,他们把人分为

2017-05-16 19:32:29 1940

转载 盘点selenium phantomJS使用的坑

转载自简书说到python爬虫,刚开始主要用urllib库,虽然接口比较繁琐,但也能实现基本功能。等见识了requests库的威力后,便放弃urllib库,并且也不打算回去了。但对一些动态加载的网站,经常要先分析请求,再用requests模拟,比较麻烦。直到遇到了selenium库,才发现爬动态网页也可以这么简单,果断入坑!selenium是python的一个第三方自动化测试库,虽然是

2017-05-08 01:09:14 6692

汉语交叉依存非投射现象

一般语言中存在着投射性现象,但是在汉语中也存在非投射现象.本论文是对汉语中非投射现象的证明.伪汉语自然语言处理经典论文之一.

2018-10-03

mongo开发指南

mongodb开发指南,适合新手入门用.这本书本身是我们老师教授nosql数据库时自己制作的教材.

2018-10-03

wps for linux 2017版本

wps for linux 2017版本,安装的时候主要环境依赖,也可以去官网下载,但是现在官网不知道为什么只有2016的版本,不知道到是不是我没找到,还是怎么着.

2017-11-21

数据科学与人工智能

非常非常简洁的演讲时使用的ppt,我的眼睛以脱稿为主,所以本ppt内容很少,很少

2017-11-17

中文停用词表 英文停用词表 中英文停用词表

多版本 中文停用词表 英文停用词表 中英文停用词表 以及python停用词词表合并程序(2个)

2017-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除