2017年12月_banlucainiao

转载 Matlab之print,fprint,fscanf,disp函数

print：print函数可以把函数图形保存成图片：[plain] view plaincopyminbnd = -4*pi; maxbnd = 4*pi; t = minbnd:0.1*pi:maxbnd; plot(t, sin(t), 'g', 'Linewidth', 2); line([minbn

2017-12-28 11:01:49 334

转载 scikit-learn的基本用法——模型保存与加载

本文主要介绍scikit-learn中的模型的保存与加载。Demo 1import picklefrom sklearn.svm import SVCfrom sklearn import datasets# 定义分类器svm = SVC()# 加载iris数据集iris = datasets.load_iris()# 读取特征X = iris.data# 读取分

2017-12-23 11:22:56 1103

转载 R语言实现层次聚类分析

聚类分析：对样品或指标进行分类的一种分析方法，依据样本和指标已知特性进行分类。本节主要介绍R语言层次聚类分析，一共包括3个部分，每个部分包括一个具体实战例子。1、常规聚类过程：一、首先用dist()函数计算变量间距离dist.r = dist(data, method=” “)其中method包括6种方法，表示不同的距离测度：”euclidean”, “ma

2017-12-22 11:38:00 11910 2

转载 Python 和 R 数据分析/挖掘工具互查

写在前面在此总结一些在数据分析/挖掘中可能用到的功能，方便大家索引或者从一种语言迁移到另一种。当然，这篇博客还会随时更新（不会另起一篇，为了方便大家索引），请大家如果有需要收藏到书签中。如果大家还知道哪些常用的命令，也可以在评论中回复我。我可以添加进来，方便更多地人更方便的检索。也希望大家可以转载。如果大家已经熟悉python和R的模块/包载入方式，那下面的表查找起来相对方便。

2017-12-22 11:21:16 472

转载 python计算分位数

使用numpy包：import numpy as npa=np.array(([1,2,3,4]))np.median(a)#中位数np.percentile(a,95)#95%分位数参考： https://docs.scipy.org/doc/numpy/reference/generated/numpy.percentile.html转载自：http://blog.c

2017-12-22 11:01:44 3381

转载 R语言：变量名称和字符串的转换

在R语言中，经常会遇到变量名称和字符串相互转换的问题。比如说，进行1000次循环运算，并将运算结果存储在1000个变量中，如x_1, x_2, ... , x_1000。这时候可以使用assign()函数，示例如下：> a错误: 找不到对象'a'> assign('a', 1)> a[1] 1 上面的例子将字符'a'转变为变量a，并将其赋值为1 。

2017-12-22 10:34:28 4492

转载 Python统计学一数据的概括性度量

一、数据的概括性度量1、统计学概括：统计学是应用数学的一个分支，主要通过利用概率论建立数学模型，收集所观察系统的数据，进行量化的分析、总结，并进而进行推断和预测，为相关决策提供依据和参考。统计学主要又分为描述统计学和推断统计学。给定一组数据，统计学可以摘要并且描述这份数据，这个用法称作为描述统计学。另外，观察者以数据的形态建立出一个用以解释其随机性和不确定性的数学模

2017-12-22 10:02:54 786

转载最全的R语言聚类树形图画法

因为在写论文的时候用到，所以和大家分享。原地址为http://rstudio-pubs-static.s3.amazonaws.com/1876_df0bf890dd54461f98719b461d987c3d.html考虑到原地址可能失效，这里做简单的翻译和备份，有关聚类的R包可以参考cluster包和ape包以下是正文：The

2017-12-21 16:25:03 9863 1

原创使用python时注意的内存、缓存问题

1. 在使用python时，常常会出现Memory Error，主要是由于python不会自动回收内存，造成内存一直占用，可以采取手动释放内存的方法，详见http://blog.csdn.net/nirendao/article/details/44426201/。2. 在使用python将结果输出到文件时，可以采取：方法一：将结果保存至python的数据结构DataFrame中

2017-12-15 12:10:45 9061

转载如何手动释放Python的内存

在上篇博客中，提到了对一个脚本进行的多次优化。当时以为已经优化得差不多了，但是当测试人员测试时，我才发现，踩到了Python的一个大坑。在上文的优化中，对每500个用户，会进行一些计算并记录结果在磁盘文件中。原本以为这么做，这些结果就在磁盘文件中了，而不会再继续占用内存；但实际上，Python的大坑就是Python不会自动清理这些内存。这是由其本身实现决定的。具体原因网上多有文章介绍，这里

2017-12-15 12:01:10 7019

转载 python pandas （ix & iloc &loc）的区别

loc——通过行标签索引行数据 iloc——通过行号索引行数据 ix——通过行标签或者行号索引行数据（基于loc和iloc 的混合）同理，索引列数据也是如此！举例说明： 1、分别使用loc、iloc、ix 索引第一行的数据: （1）locimport pandas as pddata=[[1,2,3],[4,5,6]]index=['a','b']#行号co

2017-12-14 17:32:42 1818

原创 Anaconda的Spyder读取中文文件报错处理

在用Anaconda的Spyder读取包含中文的文件时，会出现中文乱码现象，也会报错如下：报错：'utf8' codec can't decode byte 0xbb in position 2: invalid start byte报错的意思大概是，无法解码，在位置0处有非法的开始字节。了解后发现，在utf-8编码文件中BOM在文件头部，占用三个字节，

2017-12-13 12:06:38 5356

转载 Python解析json文件报错：'utf8' codec can't decode byte 0xbb in position 0: invalid start byte

今天尝试读一个json文件，数据为一行，字典列表形式，结果一直报错代码：[python] view plain copyf = file('relation.json') d = json.load(f) 报错：'utf8' codec can't decode byte 0xbb in position

2017-12-12 16:16:46 3543

转载 Python中文编码问题

中文编码问题是用中文的程序员经常头大的问题，在python下也是如此，那么应该怎么理解和解决python的编码问题呢？我们要知道python内部使用的是unicode编码，而外部却要面对千奇百怪的各种编码，比如作为中国程序经常要面对的gbk，gb2312，utf8等，那这些编码是怎么转换成内部的unicode呢？首先我们先看一下源代码文件中使用字符串的情况。源代码文件作为文本文件就

2017-12-12 10:06:03 224

转载 R中如何求众数

R中没有直接求众数的函数 q1 > table(q1) q1 3 4 5 6 7 8 1 1 3 2 2 1 > max(table(q1)) [1] 3 > table(q1) == max(table(q1)) q1 3 4 5 6 7 8 FALSE FALSE TRUE FALSE F

2017-12-09 14:50:41 5389

转载 R语言安装R package的2种方法

安装R语言的包的方法：1. 自动安装（在线安装）在R的控制台,输入install.packages("gridExtra") # 安装 gridExtrainstall.packages("stepNorm", contriburl="http://www.your.url", dependencies = TRUE) # 安装 stepNorm若要指定

2017-12-06 17:21:57 2550

转载 [R语言] 加载和安装R包

现在有很多正被支持和维护的优秀机器学习R包。对于我们要进行的案例学习来说，也有很多我们需要的多维数据处理，文本分析，网络结构以及web交互的扩展包。我们将会在很大程度上依赖这些包的内置功能。在R中加载包是非常容易的，有两个函数可以做到：library 和 require。他们之间有一些细微的差别，但是对于在本书中的使用来说，主要的区别在于 require 会返回一个布尔值(True或Fal

2017-12-06 17:09:06 2985

转载 Linux查找软件安装路径以及查看Ubuntu版本

一、查看软件安装路径：whereis mysqlmysql: /usr/bin/mysql /usr/lib/mysql /usr/include/mysql /usr/share/mysql /usr/share/man/man1/mysql.1.gz二、查询运行文件所在路径：which mysql/usr/bin/mysql总结

2017-12-06 16:38:34 350

在ubuntu上安装最新版本的R软件，如果直接下载R的压缩文件比如R-3.4.3.tar.gz，解压安装时往往会遇到一些问题，主要是因为一些依赖包安装总是出错。在不是十分熟悉ubuntu系统的情况下，我们还可以直接去R官网https://mirrors.ustc.edu.cn/CRAN/下载如：r-base-core_3.4.3-1xenial0_amd64.deb的安装文件，再直接双击安装文件就

2017-12-06 16:30:18 3827

转载 R语言在ubuntu下的编译安装

一、下载R语言安装文件源码地址：https://www.r-project.org/，在CRAN mirror寻找合适的镜像地址，根据自己网络情况选择。这里选择清华镜像地址。https://mirrors.tuna.tsinghua.edu.cn/CRAN/在 Source Code for all Platforms 选择源码R-*.*.*.tar.gz文件R-3.3

2017-12-06 12:10:03 500

转载 ubuntu下最全的软件安装、卸载、查看命令

说明：由于图形化界面方法（如Add/Remove… 和Synaptic Package Manageer）比较简单，所以这里主要总结在终端通过命令行方式进行的软件包安装、卸载和删除的方法。一、Ubuntu中软件安装方法1、APT方式（1）普通安装：apt-get install softname1 softname2 …;（2）修复安装：apt-get -f install s

2017-12-06 11:37:23 316

转载 R语言 | 关联规则

1.概念1.1 引论关联规则（AssociationRules）是无监督的机器学习方法，用于知识发现，而非预测。关联规则的学习器（learner）无需事先对训练数据进行打标签，因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估，一般都可以通过肉眼观测结果是否合理。关联规则主要用来发现Pattern，最经典的应用是购物篮分析，当然其他

2017-12-06 10:49:10 1096

转载 python找出列表重复值

a = ['l','i','u','h','a','i','w','e','n']print [val forval in list(set(a)) ifa.count(val)==2][root@iZ94h14przhZ~]# python python_list.py ['i']

2017-12-06 09:21:43 2244

转载 python中去除列表重复元素的方法汇总

NO.1 set输入代码A = ['a','b','X','a','b','G']B = list(set(A))print Aprint B1234显示如下['a', 'b', 'X', 'a', 'b', 'G']['a', 'X', 'b', 'G']12NO.2 发现上面虽然去掉了重复的元素，但顺序改变了，要是不想改变原列表的顺序A,应该这样

2017-12-06 09:20:29 460

转载 python 使用set对列表去重，并保持列表原来顺序

# 收件人去重，并保持原来的收件人顺序mailto = ['cc', 'bbbb', 'afa', 'sss', 'bbbb', 'cc', 'shafa']addr_to = list(set(mailto))addr_to.sort(key = mailto.index)转载自：http://blog.csdn.net/shuifa2008/arti

2017-12-05 10:11:27 7019

转载 MySQL5.5安装教程

1、官网下载mysql5.5下载地址：http://dev.mysql.com/downloads/mysql/5.5.html#downloads 2、安装mysql5.5注意，安装之前，请关闭杀毒软件。（1）打开下载的mysql-5.5.53-winx64.msi（2）点击下一步（3）选中复选框，下一步（4）选择自定义安装（

2017-12-04 21:30:45 2225 1

转载 Python 2.7 中文处理

首先我们在编写python代码文件时，文件本身会采用一种编码格式，如 utf-8 或 gbk这时我们需要在python文件的开头设置文件的编码格式，以告诉编译器。如果文件的编码格式是 utf-8, 则在文件的第一行需要添加如下语句#coding=utf-8如果文件的编码格式是 gbk, 则在文件的第一行需要添加如下语句#coding=gbk如果设置为

2017-12-04 17:32:56 519

转载使用Python Pandas处理亿级数据

在数据分析领域，最热门的莫过于Python和R语言，此前有一篇文章《别老扯什么Hadoop了，你的数据根本不够大》指出：只有在超过5TB数据量的规模下，Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据，千万级数据已经是关系型数据库的查询分析瓶颈，之前使用过Hadoop对大量文本进行分类，这次决定采用Python来处理数据：硬件环境CPU：3.5 GHz Intel Cor

2017-12-03 13:47:25 982

转载将数据快速读入R—readr和readxl包

Hadley Wickham 和 RStudio团队写了一些新的R包，这些包对于每个需要在R中读入数据的人来说都是非常有用的。readr包提供了一些在R中读入文本数据的函数。readxl包提供了一些在R中读入Excel电子表格数据的函数。它们的读取速度远远超过你目前正在用的一些函数。readr包提供了若干函数在R中读取数据。我们通常会用R中的read.table家族函数来完成我们的数据读入

2017-12-01 18:02:06 4135

立身以力学为先，力学以读书为本。 —郑耕老《劝学》