自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(63)
  • 收藏
  • 关注

原创 算法模型---回归模型

1、基本概念线性回归假设因变量与自变量之间存在线性关系,因变量可通过自变量线性叠加而得到,即因变量和自变量之间可用如下方式表示。 y=w0+w1x1+w2x2+...+wnxny=w_0+w_1x_1+w_2x_2+...+w_nx_n式中x1,...,xn{x_1,...,x_n}为自变量,w1,...,wn{w_1,...,w_n}为权重系数,w0w_0为偏置。 线性回归就是要解决如何利用样

2017-12-25 09:10:23 6445 1

原创 数据基础---numpy、pandas使用教程

1、基础篇官网文献,或者更详细的资料 numpy的主要目标是构造由同种元素组成的多维数组,也就是一张在的表格,因为python自带的array.array,只能创建一维数组,并且只有简单的功能。所有的元素都是同一数据类型,元素通过索引定位,索引为整数,用元组来表示。在numpy中每一个维度都被称为轴,而轴的数目就是多维数组的秩。 例如:[1,2,3]是一个秩为1的数组,该轴的长度为3,可以表示三

2017-12-18 09:35:55 6947

原创 理工学---编程基础---python---python环境安装注意事项

1、安装python的集成开发环境1.1、windows下安装可安装wingide, 或者pycharm 。以wingide为例,至官网下载最对应版本,里面已经集成了python内核和对应的开发调试界面,如python-2.5.2+wingide-101-3.2.13-1。先装python后装wingide,采用默认设置,wingide装在python的安装目录内,则能成功。 但是python只具

2017-12-18 09:28:57 6062 1

原创 编程基础---不同软件中的时间和日期

1、获取当前日期和时间软件:mysql函数:NOW()解释:获取当前日期和时间例子:SELECT NOW()结果: 2017-12-15 17:14:31以上结果为mysql系统中的日期和时间的标准格式mysql中其他一样功能的函数CURRENT_TIMESTAMP()、CURRENT_TIMESTAMP、localtime()、localtime、localtimestamp 、loc

2017-12-15 17:48:20 1211

原创 编程基础---不同软件中的字符串操作

1、字符串长度计算软件:mysql函数:LENGTH用法:SELECT LENGTH('www.111cn.Net')解释:一个汉字算3个字符,一个数字或字母算一个字符 软件:mysql函数:CHAR_LENGTH用法:SELECT CHAR_LENGTH('www.111cn.Net?字符')解释:一个汉字算3个字符,一个数字或字母算一个字符

2017-12-14 17:13:36 568 1

原创 理工学---数据基础---大数据---spark学习之数据预处理和特征提取

1、 MovieLens数据集介绍MovieLens 100k数据集,下载地址:http://files.grouplens.org/datasets/movielens/ml-100k.zip MovieLens数据集保存了用户对电影的评分。基于这个数据集,我们可以测试一些推荐算法、评分预测算法。 MovieLens 100k 该数据集记录了943个用户对1682部电影的共100,000个评

2017-12-09 13:31:39 5199 1

原创 数据基础---数据可视化

1、 python中数据可视化1.1、 seaborn库python中最常用的绘图工具包是matplotlib库,但是matplotlib中很多参数需要自己设置,灵活但繁琐,而且常常不知道如何设置(太多要设置的了)。这里主要对seaborn库进行介绍。官方文档。 seaborn中的主要接口:1.1.1、 轴和界面设置方面FaceGrid(data[,row,col,hue,col_wrap,…])

2017-12-09 13:28:23 7481

原创 理工学---数据基础---大数据---spark使用方法(二)

Spark使用过程中报错汇总报错1: ValueError: Cannot run multiple SparkContexts at once; existing SparkContext(app=PySparkShell, master=local[*]) 原因:出现这个错误是因为之前已经启动了SparkContext 解决方法:查看代码,看是否有多次运行SparkContext实例;也可

2017-12-05 13:52:13 2681 1

原创 基础操作---各种应用常用快捷键汇总

功能 应用名称 快捷键 注释/取消注释选择的行 pycharm ctrl+/ 注释/取消注释选择的行 WindIDE ctrl+/ 注释/取消注释选择的行 RStudio Ctrl+shift+C

2017-12-04 11:29:41 960

原创 理工学---数据基础---大数据---spark中的数据类型

本文是对官方文档的翻译整理1、数据类型Local vector(本地向量) Labeled point(带标签数据点) Local matrix(本地矩阵) Distrubuted matrix(分布式矩阵):RowMatrix、IndexedRowMatrix、CoordinateMatrix、BlockMatrix MLlib支持存储在单个机器上的本地的向量和矩阵,以及一个或多个RDD组

2017-12-01 09:35:15 8132 2

原创 理工学---算法模型---传统机器学习---朴素贝叶斯

贝叶斯分类器是基于贝叶斯定理构建出来的分类器,是一个统计分类器。对分类方法进行比较的有关研究表明,简单贝叶斯分类器在分类性能上与决策树和神经网络都是可比拟的。在处理大规模数据时,贝叶斯分类器已经表现出较高的准确性和运算性能。 贝叶斯分类器的假设是:指定类别中,样本各特征之间相互独立,即某一特征不同取值的概率与其他特征的取值没有任何关系。我们的目标是计算P(H/X),式中X={x1,x2,…,xn}

2017-11-25 17:31:03 2215 1

原创 理工学---系统平台---数据平台---平台搭建---spark平台搭建

1、准备好相关环境主要是在集群电脑上安装好java JDK,设置好电脑主机名称,配置Ip地址,利用ssh进行电脑间的连接,并测试好连接可靠。搭建hadoop系统(sprak本身不依赖hadoop,这里我想把hadoop用起来),同时可以预装python、pycharm这些可能乃至的编程语言和开发环境。如何安装可以查看我的其他博客。2、安装spark至官网下载相应版本的spark安装文件。

2017-11-18 11:36:49 1603 1

原创 理工学---编程基础---linux命令集(一)

命令 格式 参数 示例 说明 Ctrl+Alt+T 打开终端 rm rm 文件;rm -rf 目录 -r表示递归操作;-f表示强行删除,不作任何提示 删除文件或目录

2017-11-18 10:11:16 1621

原创 理工学---实用工具---电脑系统---虚拟机装linux系统

1、下载虚拟机(比如VMware-workstation-full,官网下载试用版就好就好) 2、安装虚拟机,安装后进行破解,隐约记得很容易破解的。 3、装系统 与物理机装系统的过程相似。VMware的界面如下: 在文件菜单下可以新建虚拟机等操作。 可以创建多个新虚拟机,在每台虚拟机上安装和进行相差配置(配置文件可以从一台机器复制到其他虚拟机);也可以先在一台虚拟机上装好系统、进行配置

2017-11-17 11:12:11 365

原创 理工学---实用工具---电脑系统---迁移到ubuntu后windows下一些常用软件的替代方法

1、 微信使用网页版微信就好2、浏览器系统自带的firefox就挺好,windows下也能使用,收藏的书签可以在不同系统及手机之间同步。3、文档编写系统自带的libreoffice还没怎么用,大致看了下,基本具备word的功能。公式的编写需要先安装libreoffice math,安装方法sudo apt-get install libreoffice-math。可以独立使用,也可以在libreof

2017-11-16 22:00:14 1028 1

原创 理工学-->实用工具---电脑系统---Ubuntu安装后的一些基本使用方法

1、ubuntu查看自己硬盘使用状况方法一、打开dash,搜索disk 方法二、在终端输入df -h显示磁盘使用情况2、ubuntu安装五笔输入法在屏幕的右上角可以看到系统当前的输入法(网络连接的左边),点进去后如果看到首先项说明输入法框架是ibus;如果看到“配置fcitx”,表明输入法框架是fictx,现在的系统好像一般都是这样框架;在fictx下,安装五笔输入法还是很简单的,只要在安装此框架

2017-11-16 20:16:45 4122 1

原创 理工学---数据基础---大数据---spark使用方法(一)

1、问题的起源之前的集群计算系统都是基于非循环的数据流模型,即从稳定的物理存储系统加载记录,传给一组确定性操作构成的DAG,然后在将得到的结果写回存储系统。这种方式如果用在迭代计算中,或者是交互式查询中(即不断的在数据子集中筛选数据),此时会存在大量的读磁盘和写磁盘及网络传输。通信开销大,整个计算效率会很低。 2、RDD的提出RDD(Resilient Distrubuted Da

2017-11-13 22:27:56 4126 1

原创 理工学---数据基础---数据库---mysql数据库操作(二)---JOIN用法

3、mysql的john用法总结3.1 左”的笛卡尔积和“右”的笛卡尔积根据mysql join 连接的方式我把它归为两类,“左”的笛卡尔积和“右”的笛卡尔积。 假设有两个表A和B,分别有m行和n行 1、“左”的笛卡尔积就是我们通常的笛卡尔积,也就A的所有元素依次连接B的第一个元素,然后A的所有元素依次连接B的第二个元素,依此类推,这样最终得到的表就有m*n行;“左”的笛卡尔积有Inner jo

2017-11-07 20:52:08 544 2

原创 理工学---数据基础---数据库---mysql数据库操作(一)---基础操作

1、mysql常识本文前面主要是对《mysql_5.5中文参考手册》部分内容的整理。 说明:登录mysql后,可以看到mysql> 的提示符,可以输入相关命令;输入命令后,需要以“;”号结束,否则会一直等待,少数的命令不需要“;”号,如QUIT;多个短命令,可以放在一起,中间用“;”号隔开;我们也可借助外部工具,如navicat来管理数据为库,在navicat中单个查询命令也可以以“;”号结束,但

2017-11-07 11:12:07 11546

原创 理工学---数据基础---不同软件中的数据类型

1、python中的数据类型1.1数据的组成python中数据包含三部分: 身份、类型、值 身份-例如给变量a赋值,a=1,id(a)可得到a的身份,为长整型,代表内存地址。 1.2数据类型python中不需要声明数据类型,在给变量赋值;时自动生成数据类型。 python中的数据类型包括: 数值型(int,long,float,complex)、 布尔型(boolean)、 字符串(s

2017-11-07 10:52:42 1453 1

原创 理工学---编程基础---不同编程语言学习---不同编程语言中文件存取相关操作

当在不同语言间切换的时候,对一些相似操作容易产生混淆。在这里记录下不同语言中文件读取的区别,这篇文章始终不会写完,我偶尔碰到一点就记录一点。1、Python中文件操作在输入文件路径时,注意文件名前是双斜杠,如’D:\tobacco\dataformat\orginal\’1.1 获取文件操作权限Python 提供了必要的函数和方法进行默认情况下的文件基本操作。你可以用 fi

2017-11-04 19:23:01 632 1

原创 理工学---算法模型---传统机器学习---树相关---随机森林原理与算法实现

随机森林原理随机森林是建立在决策树基础上集成方法(决策树中,由于噪声等因素及高方差的影响,可能会产生一些错误的分支,在没有修剪树枝的时候更容易如此)。随机森林通过有放回的方式从原始样本中随机抽取部分样本产生新的样本集合,重复这样的操作产生多个样本集合,每个样本集合后续都会产生一棵决策树;在每棵决策树产生的过程中,在每个节点进行分支的时候都随机地抽取部分特征参与决策树的分支,然后递归分支,递归分支的过

2017-11-03 14:50:03 14325 2

原创 理工学---算法模型---传统机器学习---树相关---决策树

基于决策树的分类系列内容为自己学习数据挖掘的一个笔记 本部分内容来源《数据挖掘导论》4.3节一、决策树生成算法所谓决策树,就是一个类似于流程图的树形结构,树内部的每一个节点代表的是对一个属性的测试,树的分支代表该属性的每一个测试结果,而树的每一个叶子节点代表一个类别。树的最高层是就是根节点。下图即为一个决策树的示意描述,内部节点用矩形表示,叶子节点用椭圆表示。该决策树用于对一个顾客是否会在本商场购

2017-11-01 17:50:39 37096 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除