自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

FontTian的博客

【数据启示录】数据是现实世界的一种表现形式,也是我们认识世界,改造现实的燃料。

  • 博客(19)
  • 资源 (5)
  • 收藏
  • 关注

原创 NLTK 词频统计(一) 词频统计,绘图,词性标注

内容简介代码一,笔记简略版本代码二,词频统计与pandas集合,分词词性提取与词频统计结合代码一import FontCN_NLPtools as fts引用的是我自己写的一个类,是对我常用的一些方法的封装,code已经上传# 解决乱码问题import matplotlib as mplmpl.rcParams[u'font.sans-serif'] = [u'KaiTi']mpl.rcParams[u

2017-07-29 21:27:51 11108

原创 使用NLPIR 进行中文分词并标注词性

背景在许多时候为了更好的解析文本,我们不仅仅需要将文本分词,去停这么简单,除了获取关键词与新词汇以外,我们还需要对获取每个粒度的其他信息,比如词性标注,在python中NLPIR就可以很好的完成这个任务,如果你没有NLPIR那么你可以参考这篇文章NLPIR快速搭建,或者直接下载我已经准备好的汉语自然语言处理文件包NLP源码集合代码,亦是我的笔记# - * - coding: utf - 8 -*-

2017-07-29 00:24:25 10385

原创 封装汉语自然语言处理中的常用方法(附代码:生成中文词云)

前叙该文章写作共花费二十分钟,阅读只需要七分钟左右,读完该文章后,你将学会使用少量代码,将中文小说,中文新闻,或者其他任意一段中文文本生成词云图背景在进行汉语自然语言处理时候,经常使用的几个方法,分词,清除停用词,以及获取新词,为了方便使用我们将其封装. 这样我们就可以通过一行简单的代码获取清除停用词并和英语一样分词完毕,并以空格分割的汉语字符串,或者还可以获得其他功能.至于之所以加上这个例子,是

2017-07-28 23:40:04 4523

转载 BigData预处理(完整步骤)

BigData预处理(完整步骤)虽然题目是完整步骤,实际上并不完整,以下是原文内容一:为什么要预处理数据?(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成)(3)原始数据中存在的问题:不一致 —— 数据内含出现不一致情况重复不完整 —

2017-07-22 21:57:37 1233

原创 关于我的CSDN博客的一些要说的话

写博客的目的其实最早开始写博客就是为了把自己的学习笔记和错误日志保存到线上,顺便可以拿拿赚点C币,换换资源分之类的后来慢慢感觉其实有些笔记可以写得更好一些,这样既有利于我个人的使用,或许还能帮助到其他人呢?也正是第一次有了这个想法,然后慢慢的开始筹划写博客,再然后也筹划过个人的博客网站.最后慢慢的变得对博客越来越上心.虽然后来也曾经因为觉得自己的博客缺乏质量(在学web的时候),做了太多重复性

2017-07-22 20:35:28 1293

转载 机器学习常见算法汇总

原文地址:http://www.ctocio.com/hotnews/15919.html偶然看到的一篇文章,这篇文章写的很清晰,所以转载一下,补充自己的知识库,以下为正文机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。机器学习的算法很多。很多时候困惑人

2017-07-22 20:00:22 1040

原创 快速提高CSDN访问量 - 附脚本初代机

快速提高CSDN访问量的方法多写常用知识点的博客,想办法提高百度排名,注意标题不要写的太复杂写国内比较新的技术,中短期奇效,效果很好成系列的写技术文章,有利于增加评论,粉丝,中长期能够大幅度提高日常访问量成系列的专栏,利于增加粉丝,亦能提高日常访问量,同上想办法让文章推荐到首页,可在短时间内增加访问量,大招:脚本,有一个已经写好了的脚本在最后,但是不建议大招二,水军,还可以获得很多评论

2017-07-18 11:44:02 17823 17

原创 Python3 根据关键字爬取百度图片

介绍一个可用好用的百度图片爬取脚本,唯一的不足就是这是单线程的运行环境 Python3.6.0 写该脚本的原因:获取图片创作过程有参考源码# coding:utf-8import requestsimport osimport re# import jsonimport itertoolsimport urllibimport sys# 百度图片URL解码# http://

2017-07-18 11:16:27 20983 3

原创 Pandas to_json() 中文乱码,转化为json数组

既然找到解决乱码的方法,那么想要将pandas中的数据类型存储到json中就只需要先将其转换为python自带的数据类型,再利用 json 类库其转换为json格式并存储就可以了,因为我自己是为了将python处理好的数据转换为json数组,然后利用echarts生成表格,所以我将其封装为了一个类,源码在最后。然后需要解决的是df转json数组,这个必须得自己写。

2017-07-16 22:43:31 46146 24

原创 如何快速掌握Pandas

10 Minutes to pandas 快速入门因为pandas的官方文档已经进行了十分详细的介绍,所以本篇文章不再对其进行过多介绍,下面最展示<10 Minutes to pandas>部分的汇总以及部分pandas中部分要注意的地方.要注意的几个地方 -画图问题:Pandas无法显示中文: 需要动态修改配置详细内容请阅读[Pandas matplotlib 绘图无法显示中文问题各种解决方案详解]

2017-07-14 21:27:05 4997

原创 Pandas matplotlib 无法显示中文

Pandas 无法显示中文问题 解决方案Pandas在绘图时,会显示中文为方块,主要原因有二:matplotlib 字体问题seaborn 字体问题只需要在文件开始动态设置字体配置就可以了,但是要注意,字体设置可能需要尝试多次,比如我一开始设置的win10中的’SamKi’,但是运行结果仍然是中文显示方块,后来我换成了’KaiTi’才正常显示的中文,具体原因可能只是某种字体获取失败而已.(本部

2017-07-13 00:40:56 29527 1

原创 Python2/3 list set性能测试

曾经有一份真挚的博文放在我的面前,我却没有珍惜,假如再给我一次机会,那么我会对博主说三个字----------mmp.如果非要说多一点,那么我会说:list明明比set快.你个垃圾臭傻逼.

2017-07-03 17:32:52 10327

原创 汉语自然语言处理工具包下载

Python Windows10汉语自然语言处理基本组件: 201707032018/01/16:Github长期更新,Windows,Linux通用

2017-07-03 15:22:47 32384

原创 多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序

文章简介如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,本博文及链接会定期更新:最近更新2017/07/04第二次更新

2017-07-03 15:13:15 21197 13

转载 利用 TensorFlow 实现上下文的 Chat-bots

在我们的日常聊天中,情景才是最重要的。我们将使用 TensorFlow 构建一个聊天机器人框架,并且添加一些上下文处理机制来使得机器人更加智能。“Whole World in your Hand” — Betty Newman-Maguire (http://www.bettynewmanmaguire.ie/)你是否想过一个问题,为什么那么多的聊天机器人会缺乏会话情景

2017-07-02 23:34:42 5138

转载 基于贝叶斯的垃圾邮件过滤器 JAVA

<span style="font-size: 18px;">package cn.zhf.test; import java.io.*; import java.util.*; public class SpamMailDetection { public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mai

2017-07-01 22:53:50 4223 9

原创 Python运行异常 Original error was: DLL load failed:

完整报错:ImportError: Importing the multiarray numpy extension module failed. Most likely you are trying to import a failed build of numpy. If you're working with a numpy git repo, try `git clean -xdf`

2017-07-01 20:07:31 18746 2

原创 数据标准化的方法与意义

与离差标准化的不同之处在于,离差标准化仅仅仅仅对原数据的的方差与均差进行了倍数缩减,而标准差标准化则使标准化的数据方差为一。5. 数值范围减小对许多算法在纯粹的数值计算上都有一定加速作用(个人看法,虽然影响不大,但效果还是有的)通过 " /log10(max) " 值得方式,可以保证所有样本能够正确的映射到[0,1]空间,指去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或者量级的指标能够进行和加权.问题: 数据必须大于零,大于零的函数将会被映射到[-1,0]上。含义: max : 样本最大值;

2017-07-01 16:28:54 57784 7

转载 神经网络为什么要归一化

作者:梁小h 转载自 http://nnetinfo.com/nninfo/showText.jsp?id=37========================这里是分割线============================1.数值问题。       无容置疑,归一化的确可以避免一些不必要的数值问题。输入变量的数量级未致于会引起数值问题吧,但其实要引起也

2017-07-01 14:56:05 10658

汉语交叉依存非投射现象

一般语言中存在着投射性现象,但是在汉语中也存在非投射现象.本论文是对汉语中非投射现象的证明.伪汉语自然语言处理经典论文之一.

2018-10-03

mongo开发指南

mongodb开发指南,适合新手入门用.这本书本身是我们老师教授nosql数据库时自己制作的教材.

2018-10-03

wps for linux 2017版本

wps for linux 2017版本,安装的时候主要环境依赖,也可以去官网下载,但是现在官网不知道为什么只有2016的版本,不知道到是不是我没找到,还是怎么着.

2017-11-21

数据科学与人工智能

非常非常简洁的演讲时使用的ppt,我的眼睛以脱稿为主,所以本ppt内容很少,很少

2017-11-17

中文停用词表 英文停用词表 中英文停用词表

多版本 中文停用词表 英文停用词表 中英文停用词表 以及python停用词词表合并程序(2个)

2017-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除