自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(79)
  • 收藏
  • 关注

转载 开源许可

来自为知笔记(Wiz)转载于:https://www.cnblogs.com/iathena/p/302fae2f765db40efd25b944aca6f7ac.html

2018-11-30 11:10:00 148

转载 损失函数

1 Square loss 2 Hinge loss3 Logistic loss4 Cross entropy loss Using the alternative label convention,so that, the cross entropy loss is defined as x = np.linspace(-3, 3, 1000)y_...

2016-09-13 18:33:00 149

转载 centos 配置python2.7下的sklearn机器学习组件

#备份源repo 43 mkdir /etc/yum.repos.d/repobak # 44 cd /etc/yum.repos.d/ 46 mv *.repo repobak/ #编辑repo 54 vim base.repo # 60 yum clean all #测试 61 yum install vim 7...

2016-08-24 15:46:00 236

转载 Linux升级Python提示Tkinter模块找不到解决[转载]

Linux升级Python提示Tkinter模块找不到解决Python2013-04-12python,升级,tkinter一、安装tkinter在Linux中python默认是不安装Tkinter模块,123456789[root@li250-193 ~]# pythonPython 2.6.6 (r266:84292, Feb 22 2013, 00:00:18) [GCC 4....

2016-08-24 15:03:00 180

转载 CDH通过rpm包安装

CDH通过rpm包安装author:wangxinghttp://note.youdao.com/md/preview/preview.html?file=%2Fyws%2Fapi%2Fpersonal%2Ffile%2F5B26A5BCF92E43519F13F322CD83F6A9%3Fmethod%3Ddownload%26read%3Dtrue%26shareKey%3Da91...

2016-08-10 18:19:00 209

转载 [系列转载]一.建模前的数据清洗与处理

本文作者:Charlotte77出处:http://www.cnblogs.com/charlotte77/ 在真实数据中,我们拿到的数据可能包含了大量的缺失值,可能包含大量的噪音,也可能因为人工录入错误导致有异常点存在,对我们挖据出有效信息造成了一定的困扰,所以我们需要通过一些方法,尽量提高数据的质量。数据清洗一般包括以下几个步骤:一.分析数据二.缺失值处理三.异常值处理四.去重处...

2016-08-02 18:23:00 1114

转载 2.2 数学科学的数学之矩阵-行列式

(a,b),(c.d)视为两个行向量三节行列式求解:通用定义:代数余子式!!上三角矩阵的行列式是对角线元素相乘,与对角线上方数据没有关系。同理:对角矩阵:-连乘。矩阵转置不影响行列式的值。注意是单行:来自为知笔记(Wiz)转载于:https://www.cnblogs.com/iathena/p/28093e8baa13ed0ef880b3418a515406.html...

2016-07-26 18:23:00 147

转载 4)函数极限与连续函数

函数相比序列的极限,更为丰富单侧极限极限和四则运算是可以交换顺序的。即极限可以穿越四则运算复合函数的极限差不多的:趋向于0与趋向于无穷是不同的。广义极限:左右极限夹逼定理来自为知笔记(Wiz)转载于:https://www.cnblogs.com/iathena/p/c74343f49c03875d0a5c5cffa68e2e2b.html...

2016-07-26 17:36:00 124

转载 6)导数

导数的 定义洛必达法则:对于0/0型,及无穷/无穷型,通过求导计算极限另:来自为知笔记(Wiz)转载于:https://www.cnblogs.com/iathena/p/fe12ed225826f7c52185a77ef5e554bf.html...

2016-07-26 10:39:00 107

转载 7)微分

微积分来自为知笔记(Wiz)转载于:https://www.cnblogs.com/iathena/p/1bac29d723c5229214251b52ea9aad8c.html

2016-07-26 10:39:00 87

转载 5)函数极限与连续函数

极限与连续函数来自为知笔记(Wiz)转载于:https://www.cnblogs.com/iathena/p/dbb697a546b99bff33cf385d7b4a96ca.html

2016-07-26 09:48:00 74

转载 3)数据科学的数学之序列与极限--阶乘/指数增长比较

阶乘比指数增长更快来自为知笔记(Wiz)转载于:https://www.cnblogs.com/iathena/p/4f861cc34f13a073956a6cd2eab8a43f.html

2016-07-26 09:44:00 5007

转载 2)数据科学的数学之序列与极限

序列与极限夹逼定理应用来自为知笔记(Wiz)转载于:https://www.cnblogs.com/iathena/p/b7bd7be17d8ae225adbd69526205b553.html

2016-07-21 01:18:00 109

转载 1)数据科学的数学之集合与函数

写法:上确界函数反三角函数定义域函数性质来自为知笔记(Wiz)转载于:https://www.cnblogs.com/iathena/p/4621e27952a45917504005f54b16f7c7.html

2016-07-21 01:17:00 77

转载 np.linalg.solve

矩阵中更高级的一些运算可以在NumPy的线性代数子库linalg中找到。例如inv函数计算逆矩阵,solve函数可以求解多元一次方程组。下面是solve函数的一个例子:>>> a = np.random.rand(10,10)>>> b = np.random.rand(10)>>> x = np.linalg.solve(a,b)&...

2016-07-13 12:30:00 2092

转载 Scala中的下划线应用场景

1、作为“通配符”,类似Java中的*。如import scala.math._2、:_*作为一个整体,告诉编译器你希望将某个参数当作参数序列处理!例如val s = sum(1 to 5:_*)就是将1 to 5当作参数序列处理。3、指代一个集合中的每个元素。例如我们要在一个Array a中筛出偶数,并乘以2,可以用以下办法:a.filter(_%2==0).map(2*_)。又如要对...

2016-07-08 15:03:00 73

转载 spark config详解

1.spark-env.sh测试环境配置客串export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)export SCALA_HOME=/usr/local/scalaexport JAVA_HOME=/opt/jdk1.8.0_65export SPARK_MASTER=localhostexport S...

2016-07-07 17:24:00 662

转载 hadoop config 详解

1.配置文件:-rw-r--r-- 1 hadoop 4436 Jun 2 17:47 capacity-scheduler.xml-rw-r--r-- 1 hadoop 61163 Jun 2 17:47 core-default.xml-rw-r--r-- 1 hadoop 1779 Jun 2 17:47 core-site.xml-rwxr-xr-x 1 hadoop ...

2016-07-07 15:33:00 341

转载 权限掩码umask详解

umask是chmod配套的,umask的值共有4位,分别代表:gid/uid,属主,组权,其它用户权限。一般用的是后3位。例如你用chmod 755 file(此时这文件的权限是属主读(4)+写(2)+执行(1),同组的和其它用户有读写权限)。1/在home文件夹下,查看umask,执行创建文件:umask设置的是权限“补码”:如上umask值为022,则对应目录权限为7-0=7,7-...

2016-06-29 10:56:00 691

转载 spark配置(7)--on yarn配置

vim /usr/local/spark/conf/spark-env.shexport SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)export SCALA_HOME=/usr/local/scalaexport JAVA_HOME=/opt/jdk1.8.0_65export SPARK_MASTER=l...

2016-06-26 02:16:00 93

转载 spark配置(6)-独立应用程序

cd sparkapp/ ls find . /usr/local/sbt/sbt packagepackage完成:hadoop@Athena:~/sparkapp$ lsproject simple.sbt src target打包位置:我们就可以将生成的 jar 包通过 spark-submit 提交到 Spark 中运行:/usr/local/spark/bin/spar...

2016-06-25 07:44:00 124

转载 spark配置(4)-----Spark Streaming

Spark StreamingSpark Streaming 使用 Spark API 进行流计算,这意味着在 Spark 上进行流处理与批处理的方式一样。因此,你可以复用批处理的代码,使用 Spark Streaming 构建强大的交互式应用程序,而不仅仅是用于分析数据。Spark Streaming 示例(基于流的单词统计)来演示一下 Spark Streaming:本地服务器通过 ...

2016-06-25 07:42:00 77

转载 spark配置(5)-独立应用程序

独立应用程序(Self-Contained Applications)现在基于一个简单的APP,通过 Spark API 编写一个独立应用程序。使用 Scala 编写的程序需要使用 sbt 进行编译打包,相应的,Java 程序使用 Maven 编译打包,而 Python 程序通过 spark-submit 直接提交。PS:好像spark2.0支持RDD以外的一种数据集(DataSets)...

2016-06-25 07:42:00 227

转载 spark配置(3)

缓存Spark 支持在集群范围内将数据集缓存至每一个节点的内存中,可避免数据传输,当数据需要重复访问时这个特征非常有用,例如查询体积小的“热”数据集,或是运行如 PageRank 的迭代算法。调用 cache(),就可以将数据集进行缓存:linesWithSpark.cache() Spark SQL 和 DataFramesSpark SQL 是 Spark 内嵌的模块,用于结构化数据...

2016-06-25 07:41:00 111

转载 spark配置(2)

进入交互界面./bin/spark-shell创建textFile,从本地文件,val textFile = sc.textFile("file:///usr/local/spark/README.md")从HDFS读取,scala> val textFile = sc.textFile("input/yarn-site.xml")scala> textFile.count(...

2016-06-25 07:40:00 70

转载 Hadoop 配置(3)---使用 HDFS

伪分布式读取的则是 HDFS 上的数据。要使用 HDFS,首先需要在 HDFS 中创建用户目录:./bin/hdfs dfs -mkdir -p /user/hadoop接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中,即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的 /user/hadoop/input 中。...

2016-06-25 07:39:00 496

转载 hadoop配置(4) --在每次运行时自动删除输出目录

运行 Hadoop 程序时,为了防止覆盖结果,程序指定的输出目录(如 output)不能存在,否则会提示错误,因此运行前需要先删除输出目录。在实际开发应用程序时,可考虑在程序中加上如下代码,能在每次运行时自动删除输出目录,避免繁琐的命令行操作:Configuration conf = new Configuration();Job job = new Job(conf); /* 删除输出...

2016-06-25 07:39:00 804

转载 hadoop配置(5) --启动YARN

新版的 Hadoop 使用了新的 MapReduce 框架(MapReduce V2,也称为 YARN,Yet Another Resource Negotiator)。YARN 是从 MapReduce 中分离出来的,负责资源管理与任务调度。YARN 运行于 MapReduce 之上,提供了高可用性、高扩展性。上述通过./sbin/start-dfs.sh启动 Hadoop,仅仅是...

2016-06-25 07:39:00 581

转载 Hadoop 配置(1)

1/增加hadoop 的用户;sudo useradd -m hadoop -s /bin/bash创建了可以登陆的 hadoop 用户,并使用 /bin/bash 作为 shell。设置密码:sudo passwd hadoop2/可为 hadoop 用户增加管理员权限sudo adduser hadoop sudo更新源 2 sudo apt update3/安装ssh服务器...

2016-06-25 07:37:00 39

转载 Hadoop 配置(2)-Hadoop伪分布式配置

Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件core-site.xml和hdfs-site.xml。Hadoop...

2016-06-25 07:36:00 153

转载 spark配置(1)

Hadoop 安装好之后,开始安装 Spark。环境:ubuntu16.04,hadoop 2.7.2选择spark1.6.1,基于hadoop2.6的预编译版本。官网:http://spark.apache.org/downloads.html检查:md5sum spark-1.6.1-bin-hadoop2.6.tgz下载后,执行如下命令进行安装:sudo tar -zxf ~/下载...

2016-06-23 15:35:00 64

转载 ldconfig命令的作用

ldconfig是一个动态链接库管理命令为了让动态链接库为系统所共享,还需运行动态链接库的管理命令--ldconfigldconfig 命令的用途,主要是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出可共享的动态 链接库(格式如前介绍,lib*.so*),进而创建出动态装入程序(ld.so)所需的连接和缓存文件.缓存文...

2016-06-16 18:38:00 65

转载 yarn对mapreducev1的重构,根本的思想是将 JobTracker 两个主要的功能分离成单独的组件,这两个功能是资源管理和任务调度 / 监控。...

为从根本上解决旧 MapReduce 框架的性能瓶颈,促进 Hadoop 框架的更长远发展,从 0.23.0 版本开始,Hadoop 的 MapReduce 框架完全重构,发生了根本的变化。新的 Hadoop MapReduce 框架命名为 MapReduceV2 或者叫 Yarn,yarn对mapreducev1的重构,根本的思想是将 JobTracker 两个主要的功能分离成单独的组...

2016-05-25 11:34:00 473

转载 调整vi多窗口的大小

This tip is about how to resizeWindowsefficiently.You can use the:resizecommand or its shortcut:resto change the height of the window. To change the height to 60 rows, use::resize 60You c...

2016-04-28 17:22:00 176

转载 range小数

You can also use theNumPylibrary (which isn't part of standard library but is relatively easy to obtain) which has thearangefunction:>>> import numpy as np>>> np.arange(0,...

2016-04-26 16:10:00 874

转载 for range

1.range与xrange(用于生成一系列等差数列)函数定义:range([start,] stop[, step])此函数用于生成一系列等差数列,如:In [1]: range(0,10,2) #生成以0为起始,10为停止,步长为2的等差数列Out[1]: [0, 2, 4, 6, 8]In [2]: range(0,10) #如果去掉后面的2,则默认生成步长为1的等差数列O...

2016-04-26 16:10:00 47

转载 CentOS 6.5下安装NumPy、SciPy、Scikit-Learn

1. 安装依赖包scipy需要依赖于第三方软件包,例如atlas、blas等。sudo yum install blas-devel lapack-devel2. 使用PIP安装按照顺序安装pip install numpypip install scipypip install scikit-learn来源:https://segmentfault.com/a/11900...

2016-04-22 10:02:00 113

转载 python 字典get方法

t1 = [['aa'],['ff'],['er']]t2 = [['aa', 11,],['er', 99,]]d2 = dict(t2)res = [[k[0], d2.get(k[0], 0)] for k in t1]来自为知笔记(Wiz)转载于:https://www.cnblogs.com/iathena/p/bbbf5254f83c95d1dcfde76fd30c9aa...

2016-04-19 16:04:00 80

转载 SAP sybase培训笔记3

sp_iqstatus;sp_iqversionuse;重点查看:设备大小;动态内存;activetxnversions集群:1、操作系统要一样2、并发查询的能力可以水平线性扩展;3、单机时,并发1秒以上的查询,到四五十的同时查询时,性能就会急剧下降。其中一个辅助接点是作为协调节点的备份节点。增加接点,需要有IQ...

2016-04-19 16:00:00 524

转载 SAP sybase培训笔记2

1、考虑数据规划,存储空间有多少等等。按照公式估算;字符集、排序、页面大小创建后不能更改。数据存储空间规划,特别是集群模式的部署LUNPlan要点。IQ使用的磁盘,物理上必须要与其它应用隔离;RAID5/6不要用LVM尽量分散I/O1、建议先打补丁再建库。2、准备文件系统建议给数据库日志信息(serverlog/iqms...

2016-04-19 16:00:00 131

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除