关闭

BigData预处理(完整步骤)

BigData预处理(完整步骤) 虽然题目是完整步骤,实际上并不完整,以下是原文内容 一:为什么要预处理数据? (1)现实世界的数据是肮脏的(不完整,含噪声,不一致) (2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成) (3)原始数据中存在的问题: 不一致 —— 数据内含出现不一致情况 重复 不完整 —...
阅读(584) 评论(0)

[置顶] 关于我的CSDN博客的一些要说的话

写博客的目的 其实最早开始写博客就是为了把自己的学习笔记和错误日志保存到线上,顺便可以拿拿赚点C币,换换资源分之类的 后来慢慢感觉其实有些笔记可以写得更好一些,这样既有利于我个人的使用,或许还能帮助到其他人呢?也正是第一次有了这个想法,然后慢慢的开始筹划写博客,再然后也筹划过个人的博客网站.最后慢慢的变得对博客越来越上心. 虽然后来也曾经因为觉得自己的博客缺乏质量(在学web的时候),做了太多重复性...
阅读(456) 评论(0)

机器学习常见算法汇总

原文地址:http://www.ctocio.com/hotnews/15919.html 偶然看到的一篇文章,这篇文章写的很清晰,所以转载一下,补充自己的知识库,以下为正文 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法,以供您在工作和学习中参考。 机器学习的算法很多。很多时候困惑人...
阅读(453) 评论(0)

快速提高CSDN访问量 - 附脚本初代机

快速提高CSDN访问量的方法 多写常用知识点的博客,想办法提高百度排名,注意标题不要写的太复杂 写国内比较新的技术,中短期奇效,效果很好 成系列的写技术文章,有利于增加评论,粉丝,中长期能够大幅度提高日常访问量 成系列的专栏,利于增加粉丝,亦能提高日常访问量,同上 想办法让文章推荐到首页,可在短时间内增加访问量, 大招:脚本,有一个已经写好了的脚本在最后,但是不建议 大招二,水军,还可以获得很多评论...
阅读(15907) 评论(0)

Python3 根据关键字爬取百度图片

介绍 一个可用好用的百度图片爬取脚本,唯一的不足就是这是单线程的 运行环境 Python3.6.0 写该脚本的原因:获取图片 创作过程有参考 源码# coding:utf-8 import requests import os import re # import json import itertools import urllib import sys# 百度图片URL解码 # http://...
阅读(15543) 评论(0)

Pandas to_json() 中文乱码

问题出现与解决Pandas进行数据处理之后,假如想将其转化为json,会出现一个bug,就是中文文字是以乱码存储的,也就是\uXXXXXX的形式,翻了翻官网文档,查了源码的参数,确认Pandas不带该功能=- =.于是又查了很多博客,结果都是解决读取json时的乱码问题.并没有写入的乱码问题解决.于是决定自己写一个.demojson的类库尝试了一下,不行编码问题.之后考虑python 原生的 jso...
阅读(25372) 评论(1)

如何快速掌握Pandas

10 Minutes to pandas 快速入门 因为pandas的官方文档已经进行了十分详细的介绍,所以本篇文章不再对其进行过多介绍,下面最展示部分的汇总以及部分pandas中部分要注意的地方. 要注意的几个地方 -画图问题:Pandas无法显示中文: 需要动态修改配置详细内容请阅读[Pandas matplotlib 绘图无法显示中文问题各种解决方案详解]...
阅读(1115) 评论(0)

Pandas matplotlib 无法显示中文

Pandas 无法显示中文问题 解决方案Pandas在绘图时,会显示中文为方块,主要原因有二: matplotlib 字体问题 seaborn 字体问题 只需要在文件开始动态设置字体配置就可以了,但是要注意,字体设置可能需要尝试多次,比如我一开始设置的win10中的’SamKi’,但是运行结果仍然是中文显示方块,后来我换成了’KaiTi’才正常显示的中文,具体原因可能只是某种字体获取失败而已.(本部...
阅读(19351) 评论(0)

Python2/3 list set性能测试

曾经有一份真挚的博文放在我的面前,我却没有珍惜,假如再给我一次机会,那么我会对博主说三个字----------mmp.如果非要说多一点,那么我会说:list明明比set快.你个垃圾臭傻逼....
阅读(8259) 评论(0)

汉语自然语言处理工具包下载

Python Windows10 汉语自然语言处理基本组件: 20170703...
阅读(1051) 评论(0)

多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序

文章简介如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,本博文及链接会定期更新:最近更新2017/07/04第二次更新...
阅读(7542) 评论(0)

利用 TensorFlow 实现上下文的 Chat-bots

在我们的日常聊天中,情景才是最重要的。我们将使用 TensorFlow 构建一个聊天机器人框架,并且添加一些上下文处理机制来使得机器人更加智能。 “Whole World in your Hand” — Betty Newman-Maguire (http://www.bettynewmanmaguire.ie/) 你是否想过一个问题,为什么那么多的聊天机器人会缺乏会话情景...
阅读(1274) 评论(0)

基于贝叶斯的垃圾邮件过滤器 JAVA

package cn.zhf.test; import java.io.*; import java.util.*; public class SpamMailDetection { public static final String BASE_PATH = "C:\\Users\\zhf\\Desktop\\mai...
阅读(1031) 评论(0)

Python运行异常 Original error was: DLL load failed:

完整报错: ImportError: Importing the multiarray numpy extension module failed. Most likely you are trying to import a failed build of numpy. If you're working with a numpy git repo, try `git clean -xdf`...
阅读(1426) 评论(0)

数据标准化的方法与意义

含义数据标准化和归一化存在区别 数据归一化是数据标准化的一种典型做法,即将数据统一映射到[0,1]区间上. 数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间.意义 求解需要 比如在SVM中处理分类问题是又是需要进行数据的归一化处理,不然会对准确率产生很大的影响,具体点说,比如避免出现因为数值过大导致c,g取值超过寻优范围除此之外,最明显的是在神经网络中的影响,主要有四个层面有利于初始...
阅读(1177) 评论(0)

神经网络为什么要归一化

作者:梁小h 转载自 http://nnetinfo.com/nninfo/showText.jsp?id=37 ========================这里是分割线============================ 1.数值问题。        无容置疑,归一化的确可以避免一些不必要的数值问题。输入变量的数量级未致于会引起数值问题吧,但其实要引起也...
阅读(1063) 评论(0)

梯度下降与delta法则

delta法则 尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。 因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目标概念的最佳 近似。  delta 法则的关键思想是使用梯度下降(gradient descent)来搜索可能权向...
阅读(1047) 评论(0)

一文弄懂神经网络中的反向传播法

最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果...
阅读(1031) 评论(0)

Python 任意中文文本生成词云 最终版本

前叙利用下面的代码你将可以将任意中文文本生成词云,其分词部分由jieba,NLPIR2016两个部分组成,生成词语由worldcloud负责,默认会自动发现文本中的20个新词并添加到词库中,当然你也可以手动添加或者通过txt添加用户词库.code中已经有十分详细的设置说明与代码解释,如果你想进一步学习其详细内容,你可以参考我在第二部分提供的博客列表想要进一步学习使用的参考博客列表Python词云 w...
阅读(1150) 评论(0)

Python NLPIR2016 与 wordcloud 结合生成中文词云

前叙该博文继承之前的文章,进一步介绍NLPIR2016的使用,三个内容(利用NLPIR 的发现新词功能自动提取文本内的新词汇,解决worldcloud中英文混合只显示中文的问题,NLPIR与worldcloud结合生成词云) 写作本博客需要一个小时,阅读需要十二分钟.使用 NLPIR2016 获取新词# 之前已经展示过的代码,介绍了NLPIR2016中获取新词的三个方式 # 获得新词,第二个参数控...
阅读(998) 评论(0)
90条 共5页首页 上一页 1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:224802次
    • 积分:2555
    • 等级:
    • 排名:第14465名
    • 原创:71篇
    • 转载:17篇
    • 译文:2篇
    • 评论:25条
    博客专栏
    最新评论