自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

FontTian的博客

【数据启示录】数据是现实世界的一种表现形式,也是我们认识世界,改造现实的燃料。

  • 博客(235)
  • 资源 (5)
  • 收藏
  • 关注

原创 Python机器学习类库常见问题及解决

Python类库安装常见问题没有类库下载更新缓慢类库太多,一次下载很慢多版本运行问题常见问题解决方案关于类库找不到问: 类库找不到怎么办? 答: 下载whl文件,安装.链接点这里问:whl文件怎么安装 答一: cmd命令行安装,将文件放在命令行的路径下,pip install whl文件名 即可 答二:pip install 路径+whl文件名 亦可 答三:检查 pip list

2017-08-01 22:39:00 1679 2

转载 Anaconda多环境多版本python配置指导

Anaconda多环境多版本python配置指导:http://www.jianshu.com/p/d2e15200ee9b原博客是翻译的官方文档,再加上自己的部分内容,官方原文地址:http://conda.pydata.org/docs/test-drive.htmlconda测试指南在开始这个conda测试之前,你应该已经下载并安装好了Anaconda或者Minic

2017-08-01 22:30:42 3743 2

原创 NLTK 词频统计(一) 词频统计,绘图,词性标注

内容简介代码一,笔记简略版本代码二,词频统计与pandas集合,分词词性提取与词频统计结合代码一import FontCN_NLPtools as fts引用的是我自己写的一个类,是对我常用的一些方法的封装,code已经上传# 解决乱码问题import matplotlib as mplmpl.rcParams[u'font.sans-serif'] = [u'KaiTi']mpl.rcParams[u

2017-07-29 21:27:51 11108

原创 使用NLPIR 进行中文分词并标注词性

背景在许多时候为了更好的解析文本,我们不仅仅需要将文本分词,去停这么简单,除了获取关键词与新词汇以外,我们还需要对获取每个粒度的其他信息,比如词性标注,在python中NLPIR就可以很好的完成这个任务,如果你没有NLPIR那么你可以参考这篇文章NLPIR快速搭建,或者直接下载我已经准备好的汉语自然语言处理文件包NLP源码集合代码,亦是我的笔记# - * - coding: utf - 8 -*-

2017-07-29 00:24:25 10385

原创 封装汉语自然语言处理中的常用方法(附代码:生成中文词云)

前叙该文章写作共花费二十分钟,阅读只需要七分钟左右,读完该文章后,你将学会使用少量代码,将中文小说,中文新闻,或者其他任意一段中文文本生成词云图背景在进行汉语自然语言处理时候,经常使用的几个方法,分词,清除停用词,以及获取新词,为了方便使用我们将其封装. 这样我们就可以通过一行简单的代码获取清除停用词并和英语一样分词完毕,并以空格分割的汉语字符串,或者还可以获得其他功能.至于之所以加上这个例子,是

2017-07-28 23:40:04 4523

转载 BigData预处理(完整步骤)

BigData预处理(完整步骤)虽然题目是完整步骤,实际上并不完整,以下是原文内容一:为什么要预处理数据?(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成)(3)原始数据中存在的问题:不一致 —— 数据内含出现不一致情况重复不完整 —

2017-07-22 21:57:37 1233

原创 关于我的CSDN博客的一些要说的话

写博客的目的其实最早开始写博客就是为了把自己的学习笔记和错误日志保存到线上,顺便可以拿拿赚点C币,换换资源分之类的后来慢慢感觉其实有些笔记可以写得更好一些,这样既有利于我个人的使用,或许还能帮助到其他人呢?也正是第一次有了这个想法,然后慢慢的开始筹划写博客,再然后也筹划过个人的博客网站.最后慢慢的变得对博客越来越上心.虽然后来也曾经因为觉得自己的博客缺乏质量(在学web的时候),做了太多重复性

2017-07-22 20:35:28 1293

转载 机器学习常见算法汇总

原文地址:http://www.ctocio.com/hotnews/15919.html偶然看到的一篇文章,这篇文章写的很清晰,所以转载一下,补充自己的知识库,以下为正文机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人

2017-07-22 20:00:22 1040

原创 快速提高CSDN访问量 - 附脚本初代机

快速提高CSDN访问量的方法多写常用知识点的博客,想办法提高百度排名,注意标题不要写的太复杂写国内比较新的技术,中短期奇效,效果很好成系列的写技术文章,有利于增加评论,粉丝,中长期能够大幅度提高日常访问量成系列的专栏,利于增加粉丝,亦能提高日常访问量,同上想办法让文章推荐到首页,可在短时间内增加访问量,大招:脚本,有一个已经写好了的脚本在最后,但是不建议大招二,水军,还可以获得很多评论

2017-07-18 11:44:02 17823 17

原创 Python3 根据关键字爬取百度图片

介绍一个可用好用的百度图片爬取脚本,唯一的不足就是这是单线程的运行环境 Python3.6.0 写该脚本的原因:获取图片创作过程有参考源码# coding:utf-8import requestsimport osimport re# import jsonimport itertoolsimport urllibimport sys# 百度图片URL解码# http://

2017-07-18 11:16:27 20983 3

原创 Pandas to_json() 中文乱码,转化为json数组

既然找到解决乱码的方法,那么想要将pandas中的数据类型存储到json中就只需要先将其转换为python自带的数据类型,再利用 json 类库其转换为json格式并存储就可以了,因为我自己是为了将python处理好的数据转换为json数组,然后利用echarts生成表格,所以我将其封装为了一个类,源码在最后。然后需要解决的是df转json数组,这个必须得自己写。

2017-07-16 22:43:31 46146 24

原创 如何快速掌握Pandas

10 Minutes to pandas 快速入门因为pandas的官方文档已经进行了十分详细的介绍,所以本篇文章不再对其进行过多介绍,下面最展示<10 Minutes to pandas>部分的汇总以及部分pandas中部分要注意的地方.要注意的几个地方 -画图问题:Pandas无法显示中文: 需要动态修改配置详细内容请阅读[Pandas matplotlib 绘图无法显示中文问题各种解决方案详解]

2017-07-14 21:27:05 4997

原创 Pandas matplotlib 无法显示中文

Pandas 无法显示中文问题 解决方案Pandas在绘图时,会显示中文为方块,主要原因有二:matplotlib 字体问题seaborn 字体问题只需要在文件开始动态设置字体配置就可以了,但是要注意,字体设置可能需要尝试多次,比如我一开始设置的win10中的’SamKi’,但是运行结果仍然是中文显示方块,后来我换成了’KaiTi’才正常显示的中文,具体原因可能只是某种字体获取失败而已.(本部

2017-07-13 00:40:56 29526 1

原创 Python2/3 list set性能测试

曾经有一份真挚的博文放在我的面前,我却没有珍惜,假如再给我一次机会,那么我会对博主说三个字----------mmp.如果非要说多一点,那么我会说:list明明比set快.你个垃圾臭傻逼.

2017-07-03 17:32:52 10327

原创 汉语自然语言处理工具包下载

Python Windows10汉语自然语言处理基本组件: 201707032018/01/16:Github长期更新,Windows,Linux通用

2017-07-03 15:22:47 32384

原创 多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序

文章简介如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,本博文及链接会定期更新:最近更新2017/07/04第二次更新

2017-07-03 15:13:15 21197 13

转载 利用 TensorFlow 实现上下文的 Chat-bots

在我们的日常聊天中,情景才是最重要的。我们将使用 TensorFlow 构建一个聊天机器人框架,并且添加一些上下文处理机制来使得机器人更加智能。“Whole World in your Hand” — Betty Newman-Maguire (http://www.bettynewmanmaguire.ie/)你是否想过一个问题,为什么那么多的聊天机器人会缺乏会话情景

2017-07-02 23:34:42 5138

转载 基于贝叶斯的垃圾邮件过滤器 JAVA

<span style="font-size: 18px;">package cn.zhf.test; import java.io.*; import java.util.*; public class SpamMailDetection { public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mai

2017-07-01 22:53:50 4223 9

原创 Python运行异常 Original error was: DLL load failed:

完整报错:ImportError: Importing the multiarray numpy extension module failed. Most likely you are trying to import a failed build of numpy. If you're working with a numpy git repo, try `git clean -xdf`

2017-07-01 20:07:31 18746 2

原创 数据标准化的方法与意义

与离差标准化的不同之处在于,离差标准化仅仅仅仅对原数据的的方差与均差进行了倍数缩减,而标准差标准化则使标准化的数据方差为一。5. 数值范围减小对许多算法在纯粹的数值计算上都有一定加速作用(个人看法,虽然影响不大,但效果还是有的)通过 " /log10(max) " 值得方式,可以保证所有样本能够正确的映射到[0,1]空间,指去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或者量级的指标能够进行和加权.问题: 数据必须大于零,大于零的函数将会被映射到[-1,0]上。含义: max : 样本最大值;

2017-07-01 16:28:54 57781 7

转载 神经网络为什么要归一化

作者:梁小h 转载自 http://nnetinfo.com/nninfo/showText.jsp?id=37========================这里是分割线============================1.数值问题。       无容置疑,归一化的确可以避免一些不必要的数值问题。输入变量的数量级未致于会引起数值问题吧,但其实要引起也

2017-07-01 14:56:05 10658

转载 梯度下降与delta法则

delta法则尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目标概念的最佳 近似。 delta 法则的关键思想是使用梯度下降(gradient descent)来搜索可能权向

2017-06-29 13:41:01 2482

转载 一文弄懂神经网络中的反向传播法

最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果

2017-06-29 11:25:28 2264 1

原创 Python 任意中文文本生成词云 最终版本

前叙利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也可以手动添加或者通过txt添加用户词库.code中已经有十分详细的设置说明与代码解释,如果你想进一步学习其详细内容,你可以参考我在第二部分提供的博客列表想要进一步学习使用的参考博客列表Python词云 w

2017-06-10 15:20:49 8153 6

原创 Python NLPIR2016 与 wordcloud 结合生成中文词云

前叙该博文继承之前的文章,进一步介绍NLPIR2016的使用,三个内容(利用NLPIR 的发现新词功能自动提取文本内的新词汇,解决worldcloud中英文混合只显示中文的问题,NLPIR与worldcloud结合生成词云) 写作本博客需要一个小时,阅读需要十二分钟.使用 NLPIR2016 获取新词# 之前已经展示过的代码,介绍了NLPIR2016中获取新词的三个方式# 获得新词,第二个参数控

2017-06-10 15:06:28 2718

原创 Python NLPIR(中科院汉语分词系统)的使用 十五分钟快速入门与完全掌握

前叙博主写这篇文章使用了八十分钟,阅读需要十五分钟,读完之后你将会学会在Python中使用NLPIR2016.如果你花费更多的时间练习后半部分的例子,你将能够在一天内学会在Python中使用NLPIR2016的全部所需知识 如果你想要获取更详细的API翻译,你需要进一步学习ctypes,附赠一篇关于API翻译,虽然是java语言的,但是NLPIR的接口翻译都是一样的 http://blog.cs

2017-06-06 17:16:12 25230 16

原创 源码:我的关于NLP的博客(持续更新中...)

决定上传我平时写的部分源码,不过暂时只打算上传有关NLP的部分,之后随着博客的不断更新,我也会不断更新这篇博客,你可以将这片博客放在你的收藏夹里,这样方便你的浏览1.关于NLPIR的部分20160606,第一次上传测试pynlpir在Python中使用NLPIR2016(快速上手与完全掌握)百度云链接:http://pan.baidu.com/s/1eStdgRK2

2017-06-06 17:13:55 5341 4

转载 中科院分词系统(NLPIR)JAVA简易教程

这篇文档内容主要从官方文档中获取而来,对API进行了翻译,并依据个人使用经验进行了一些补充,鉴于能力有限、水平较低,文档中肯定存在有很多不足之处,还请见谅。下载地址:http://ictclas.nlpir.org/downloads,下载最新的NLPIR/ICTCLAS分词系统下载包授权文件下载地址:https://github.com/NLPIR-team/NLPIR/tree

2017-06-06 15:51:28 10220 4

原创 Python 中文分词 NLPIR 快速搭建

前述本篇文章写完需要半个小时,阅读需要十分钟,读完后,你将学会在Python中使用NLPIR,以及关于使用它的一些有用的基础知识 NLPIR 是中科院的汉语分词系统,在Python中使用也比较广泛,而且曾多次夺得汉语分词比赛的冠军,并且其可以在多个语言上都实现了接口甚至在Hadoop中也可以使用,博主比较推荐NLPIRgithub地址:https://github.com/NLPIR-team/N

2017-06-05 23:03:58 10093 2

原创 Python + wordcloud + jieba 十分钟学会生成中文词云

代码部分来源于其他人的博客,但是因为bug或者运行效率的原因,我对代码进行了较大的改变代码第一部分,设置代码运行需要的大部分参数,你可以方便的直接使用该代码而不需要进行过多的修改第二部分为jieba的一些设置,当然你也可以利用isCN参数取消中文分词第三部分,wordcloud的设置,包括图片展示与保存如果你想用该代码生成英文词云,那么你需要将isCN参数设置为0,并且提供英文的停用词表,但是我更推荐你使用Python词云 worldcloud 十五分钟入门与进阶。

2017-05-27 17:00:10 51430 28

原创 Python中文分词 jieba 十五分钟入门与进阶

jieba 基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐写这篇文章花费两个小时小时,阅读需要十五分钟,读完本篇文章后您将能上手jieba下篇博文将介绍将任意中文文本生成中文词云同时如果你希望使用其它分词工具,那么你可以留意我之后的博客,我会在接下来的日子里发布其他有关内容.

2017-05-27 16:21:04 95194 40

原创 Python词云 wordcloud 十五分钟入门与进阶

基于Python的词云生成类库,很好用,而且功能强大.博主个人比较推荐写这篇文章花费一个半小时,阅读需要十五分钟,读完本篇文章后您将能上手wordcloud中文词云与其他要点,我将会在下一篇文章中介绍这段代码主要来自wordcloud的github,你可以在github下载该例子""""""Parameters----------"""Parameters----------"""try:"""# 自定义所有单词的颜色。

2017-05-26 23:39:55 94360 18

原创 docker 的mysql镜像使用手册 官网原文 日期2017-05-25

原文地址Supported tags and respective Dockerfile links8.0.1,8.0, 8 (8.0/Dockerfile)5.7.18,5.7, 5, latest (5.7/Dockerfile)5.6.36,5.6 (5.6/Dockerfile)5.5.56,5.5 (5.5/Dockerfile)Quick refer

2017-05-25 13:05:09 2328

原创 pynlpir.LicenseError: Your license appears to have expired. Try running "pynlpir update".

本篇讲的是Python环境,但是其他环境原理相同 但是如果你使用的java环境,或许 JAVA环境 解决NLPIR的License过期问题 可以更好地帮助你执行代码import pynlpirpynlpir.open()str = '欢迎科研人员、技术工程师、企事业单位与个人参与NLPIR平台的建设工作。'print(pynlpir.segment(str))后,出现pynlpir.Licen

2017-05-24 18:48:40 7092 3

原创 朴素贝叶斯分类器(Navie Bayesian Classifier)中的几个要点(一)

关键字:拉普拉斯修正(Laplacian correction)懒惰学习(lazy leanring)对数似然(log-likelihood)拉普拉斯修正(Laplacian correction)朴素贝叶斯分类器的训练:基于训练集D 来估计类先验概率P(y)基于训练集D 为每个属性估计条件概率P(x|y)因此当在某个训练集中,样本的一条特征值 EV 出现概率为 0 时,则会使计算的先

2017-05-18 13:20:45 2909

原创 OpenCV的k - means聚类 -对图片进行颜色量化

 OpenCV的k - means聚类目标学习使用cv2.kmeans()数据聚类函数OpenCV理解参数输入参数 样品:它应该的np.float32数据类型,每个特性应该被放在一个单独的列。 nclusters(K):数量的集群需要结束 标准:这是迭代终止准则。 当这个标准是满足,算法迭代停止。 实际上,它应该是一个元组的三个参数。 他们是( ...

2017-05-16 20:08:18 8179

翻译 OpenCV官方文档 理解k - means聚类

理解k - means聚类目标在这一章中,我们将了解k - means聚类的概念,它是如何工作等。理论我们将这个处理是常用的一个例子。t恤尺寸问题考虑一个公司要发布一个新模型的t恤。 显然他们将不得不制造模型满足人们各种尺寸的大小不同。 所以公司的数据甚至€™身高和体重,并把它们放到图,如下:公司无法为所有的尺寸制作衣服。 相反,他们把人分为

2017-05-16 19:32:29 1940

转载 盘点selenium phantomJS使用的坑

转载自简书说到python爬虫,刚开始主要用urllib库,虽然接口比较繁琐,但也能实现基本功能。等见识了requests库的威力后,便放弃urllib库,并且也不打算回去了。但对一些动态加载的网站,经常要先分析请求,再用requests模拟,比较麻烦。直到遇到了selenium库,才发现爬动态网页也可以这么简单,果断入坑!selenium是python的一个第三方自动化测试库,虽然是

2017-05-08 01:09:14 6692

原创 朴素贝叶斯法分类器的Python3 实现

本篇文章是我在读了李航的<统计学习方法>后手写的算法实现之一 原理请参考统计学习方法第四章朴素贝叶斯法-李航代码, NaiveBayesMethod 的内部计算方式现在为数值计算, 符号计算的代码已经注释,如果需要请手动修改 朴素贝叶斯法分类器 当lam=1 时,类分类方式为为贝叶斯估计 实现了拉普拉斯平滑,以此避免出现要计算的概率为0的情况,以免计算错误的累积 具体原理请

2017-04-26 23:54:18 3643

转载 统计学习方法第四章朴素贝叶斯法-李航

第4章 朴素贝叶斯法朴素贝叶斯 (naive Bayes) 法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出Y。4.1 朴素贝叶斯法的学习与分类基本方法朴素贝叶斯法通过训练数据集学习X和Y的联合概率分布P(X,Y)。

2017-04-26 23:50:38 2415

汉语交叉依存非投射现象

一般语言中存在着投射性现象,但是在汉语中也存在非投射现象.本论文是对汉语中非投射现象的证明.伪汉语自然语言处理经典论文之一.

2018-10-03

mongo开发指南

mongodb开发指南,适合新手入门用.这本书本身是我们老师教授nosql数据库时自己制作的教材.

2018-10-03

wps for linux 2017版本

wps for linux 2017版本,安装的时候主要环境依赖,也可以去官网下载,但是现在官网不知道为什么只有2016的版本,不知道到是不是我没找到,还是怎么着.

2017-11-21

数据科学与人工智能

非常非常简洁的演讲时使用的ppt,我的眼睛以脱稿为主,所以本ppt内容很少,很少

2017-11-17

中文停用词表 英文停用词表 中英文停用词表

多版本 中文停用词表 英文停用词表 中英文停用词表 以及python停用词词表合并程序(2个)

2017-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除