自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

htfenght的博客

胜则谦逊,败则优雅

  • 博客(44)
  • 资源 (3)
  • 收藏
  • 关注

原创 Java知识点

关于static关键字static修饰的成员,不能被非static修饰的成员访问被static修饰的变量称为类变量,被static修饰的方法称为类方法,他们被类的实例共享使用static定义的方法可以由类名称直接调用使用static类型声明的方法时,需要注意:如果类中声明了一个static类型的属性,则此类属性既可以在非static类型的方法中使用,也可以在static类型的方法中使用,...

2018-11-29 19:22:14 100

原创 面试题31: 栈的压入、弹出序列

Github/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.06** 面试题31: 栈的压入、弹出序列* 题目:输入两个整数序列,第一个序列表示栈的压入顺序,请判断第二个序列是* 否为该栈的弹出顺序...

2018-11-29 17:01:39 178

原创 面试题32: 从上到下打印二叉树:不分行打印

Github/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.06** 面试题32: 从上到下打印二叉树* 题目一:不分行打印** 分析: 层序遍历************************...

2018-11-29 17:01:30 122

原创 SparkStreaming

SparkStreaming大数据实时计算大数据实时计算介绍Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架。它的底层,其实,也是基于我们之前讲解的Spark Core的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的组件或者叫做概念,其实还是最核心的RDD。只不多,针对实时计算的特点,在RDD之上,进行了一层封装,叫做D...

2018-11-29 17:00:38 128

原创 Spark内核架构深度剖析

Spark内核架构深度剖析Spark内核架构Application提交的Spark程序的机器spark-submitspark-submit提交Spark程序Spark-submit使用之前一直使用的那种提交模式提交,叫做Standalone,其实会通过反射的方式,创建和构造一个DriverActor进行Driver启动一个进程执行Application应用程序执行构...

2018-11-29 16:58:40 179

原创 SparkSQL

SparkSQLSpark 1.0版本开始,推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了Spark SQL。Shark的性能比Hive就要高出一个数量级,而Spark SQL的性能又比Shark高出一个数量级。最早来说,Hive的诞生,主要是因为要让那些不熟悉Java,无法深入进行M...

2018-11-29 16:57:34 187

原创 Spark基本工作原理

Spark基本工作原理Spark基本工作原理分布式首先我们在本地上编写spark程序,然后必须在某台能够链接spark的机器上提交该spark程序然后spark集群从hadoop:HDFS、Hive上面读取数据,分布在spark的节点上对节点上的数据进行处理,处理后的数据,可能会移动到其他节点中主要基于内存数据都是存到各个节点的内存中所有的计算操作都是针对多个节点上的数据,进...

2018-11-29 16:57:03 433

原创 面试题28: 对称的二叉树

Github/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.05** 面试题27: 对称的二叉树* 题目:实现一个函数,用来判断一颗二叉树是不是对称的** 分析: 前序遍历是先遍历左子树,实现一个...

2018-11-27 16:58:59 235

原创 面试题27: 二叉树的镜像

/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.04** 面试题27: 二叉树的镜像* 题目:输入两颗二叉树,输出它的镜像。*************************************...

2018-11-27 16:58:33 309

原创 jupyter安装java内核

jupyter安装java内核JAVA JDK首先下载最新的Java JDK解压,配置环境变量测试java -version安装jupyter java内核首先查看jupyter内核jupyter kernelspec list#删除内核使用以下命令jupyter kernelspec remove java安装IJAVA使用unzip解压,解压之后的目录机构为:...

2018-11-26 19:09:35 6960 2

原创 服务器端配置jupyter notebook

服务器端配置jupyter notebook首先安装anaconda下载anaconda Linux版安装在服务器上./Anaconda3-5.3.1-Linux-x86_64.sh注意,安装过程中会提示你是否把anaconda加到环境变量,选择yes配置jupyter notebook打开python输入:from notebook.auth import passw...

2018-11-26 16:54:17 432

原创 面试题26: 树的子结构

/********************************************************************《剑指Offer——名企面试官精讲典型编程题》C++代码** htfeng* 2018.10.04** 面试题26: 树的子结构* 题目:输入两颗二叉树A和B,判断B是不是A的子结构。* * 分析:先找到树A中与树B的根节点一样的,然后判断他们...

2018-11-23 12:49:49 160

原创 pip 换源

pip换清华源pip的官方说明文档,它的配置文件应该放在%APPDATA%/pip/目录下,配置文件名称是pip.ini,我们先按下win+R键。或者在开始菜单上点右键,点运行。然后在出来的窗口中输入%APPDATA%,然后点击确定。打开的默认路径是C:\Users\k50-10\Appdata\roming目录,在这个目录下没有看到pip目录,因此需要手动创建一个。在这个目录的空白位置,...

2018-11-19 17:57:28 255

原创 README

spark环境搭建note@htfeng学习北风网spark从入门到精通Spark环境搭建学习笔记目录1 CentoOS集群搭建2 Hadoop集群搭建3 Hive搭建4 Zookeeper集群搭建5 kafka集群搭建6 Spark集群搭建...

2018-11-18 21:13:45 533

原创 6 Spark集群搭建

Spark集群搭建Spark安装下载Spark-bin-hadoop将下载的Spark-bin-hadoop包解压缩到/usr/local文件夹下修改Spark-bin-hadoop文件夹名字为spark配置环境变量vi .bashrcexport SPARK_HOME=/usr/local/sparkexport PATH=$PATH:$SPARK_HOME/binexpo...

2018-11-18 21:11:36 202

原创 5 kafka集群搭建

kafka集群搭建安装scala下载scala将下载的scala包解压缩到/usr/local文件夹下修改scala文件夹名字为scala配置环境变量按照上述步骤在spark2和spark3机器上都安装好scala。使用scp将scala和.bashrc拷贝到spark2和spark3上即可。安装kafka下载kafka将下载的kafka包解压缩到/usr/local文件夹...

2018-11-18 21:11:14 194

原创 4 Zookeeper集群搭建

ZooKeeper集群搭建搭建Zookeeper的目的是为了后面搭建kafka,搭建kafka的目的是后面的spark streaming要进行实时计算,最常用的场景就是让Spark streaming接通kafka来做实时计算的实验。下载安装ZooKeeper下载ZooKeeper将下载的ZooKeeper包解压缩到/usr/local文件夹下修改ZooKeeper文件夹名字为zk...

2018-11-18 21:10:51 180

原创 3 Hive搭建

Hive搭建仅仅在spark1上搭建下载安装HIVE下载hive,下载bin版本,不要下载src版本将下载的hive包解压缩到/usr/local文件夹下修改夹名字为hive配置环境变量下载安装mysql安装mysql serveryum install -y mysql-serverservice mysqld startchkconfig mysqld on...

2018-11-18 21:10:31 217

原创 2 Hadoop集群搭建

Hadoop集群搭建安装hadoop下载hadoop将下载的hadoop包解压缩到/usr/local文件夹下配置hadoop环境变量配置hadoopcd hadoop/etc/hadoop/修改core-site.xml<property> <name>fs.default.name</name> <value>hdf...

2018-11-18 21:10:03 212

原创 1 CentoOS集群搭建

CentOS集群搭建CentOS设置163的yum源的过程cd /etc/yum.repos.d/rm -rf *cp /usr/local/CentOS6-Base-163.repo . # 自己的repo文件移动到/etc/yum.repos.d/目录中:cp /usr/local/CentOS6-Base-163.repo .# 修改repo文件,把所有gpgcheck属性修...

2018-11-18 12:57:07 351

原创 数据挖掘的发展趋势和研究前沿

挖掘复杂的数据类型数据挖掘的其他方法数据挖掘应用数据挖掘的社会数据挖掘的发展趋势

2018-11-14 17:47:08 8735

原创 MySQL导入导出数据

MySQL导出数据MySQL中你可以使用SELECT...INTO OUTFILE语句来简单的导出数据到文本文件上。mysql> SELECT * FROM product -> INTO OUTFILE 'product.txt';导出表作为原始数据mysqldump是 mysql 用于转存储数据库的实用程序。它主要产生一个 SQL 脚本,其中包含从头重新创建数据库...

2018-11-14 17:02:30 230

原创 虚函数与纯虚函数的区别

虚函数(impure virtual)C++的虚函数主要作用是“运行时多态”,父类中提供虚函数的实现,为子类提供默认的函数实现。子类可以重写父类的虚函数实现子类的特殊化。纯虚函数(pure virtual)C++中包含纯虚函数的类,被称为是“抽象类”。抽象类不能使用new出对象,只有实现了这个纯虚函数的子类才能new出对象。C++中的纯虚函数更像是“只提供申明,没有实现”,是对子类...

2018-11-14 09:48:55 242

原创 离群点检测

离群点检测离群点检测时找出其行为很不同于预期对象的过程,这种对象称为离群点或异常。离群点检测和聚类分析是两项高度相关的任务。离群点和离群点分析什么是离群点离群点是一个数据对象,它显著不同于其他数据对象,好像他是被不同的机制产生的一样。离群点不同于噪声数据,噪声数据是被观测变量的随机误差或方差,噪声数据在数据分析中不是令人感兴趣的。离群点是有趣的,因为怀疑产生他们的机制不同于产生其他...

2018-11-13 16:01:58 2119

转载 MySQL 处理重复数据

原文地址有些 MySQL 数据表中可能存在重复的记录,有些情况我们允许重复数据的存在,但有时候我们也需要删除这些重复的数据。本章节我们将为大家介绍如何防止数据表出现重复数据及如何删除数据表中的重复数据。防止表中出现重复数据你可以在MySQL数据表中设置指定的字段为PRIMARY KEY(主键) 或者 UNIQUE(唯一) 索引来保证数据的唯一性。让我们尝试一个实例:下表中无索...

2018-11-13 15:00:25 166

转载 MySQL序列使用

原文链接AUTO_INCREMENTMySQL 中最简单使用序列的方法就是使用 MySQL AUTO_INCREMENT 来定义列。例子如下,创建一个表,表中的id无需指定可实现自动增长:mysql> CREATE TABLE insect -> ( -> id INT UNSIGNED NOT NULL AUTO_INCREMENT, ->...

2018-11-13 14:47:18 221

转载 高级聚类分析

原文:https://blog.csdn.net/fjssharpsword/article/details/79291001高级聚类分析基于概率模型的聚类研究一个对象属于多个簇的聚类主题。模糊簇模糊集S是整体对象集X的一个子集,允许X中的每个对象都具有一个属于S的0到1之间的隶属度。给定对象的集合,一个簇就是对象的一个模糊集,这种簇就是模糊簇,一个聚类包含多个模糊簇。模糊聚类就是划分...

2018-11-12 14:12:42 1067

转载 markdown与word相互转换

markdown文本转换成word步骤如下首先,下载typora,一路安装即可。网址为:http://www.softpedia.com/get/Internet/WEB-Design/HTML-Editors/Typora.shtml下载pandoc,一路安装即可,网址为(注意,Windows选择pandoc-**-windows.msi这个版本即可):https://github....

2018-11-12 11:34:40 4693

原创 MySQL 临时表、复制表

MySQL 临时表MySQL临时表在我们需要保存一些临时数据时是非常有用的。临时表只在当前连接可见,当关闭连接时,Mysql会自动删除表并释放所有空间.实例:创建一个临时表CREATE TEMPORARY TABLE SalesSummary (product_name VARCHAR(50) NOT NULL, total_sales DECIMAL(12,2) NOT NULL ...

2018-11-12 11:14:27 1873

转载 MySQL 索引

原文地址MySQL 索引索引的优点提高MySQL的检索速度索引也是一张表,该表保存了主键与索引字段,并指向实体表的记录。索引的缺点:降低更新表的速度因为更新表时,MySQL不仅要保存数据,还要保存一下索引文件。建立索引会占用磁盘空间的索引文件线建一个数据库表: create table testindex_tbl -> ( -> ...

2018-11-11 22:27:54 169

转载 聚类评估

聚类概念聚类是一个把数据对象划分为多个簇或者多个组的过程,使得一个簇内的对象具有很高的相似性,但与其他簇内的对象不相似。聚类算法属于无监督学习聚类分析概念聚类分析是一个把数据对象划分为子集的过程,每个子集是一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似,由聚类分析产生簇的集合叫做聚类。至关重要的区别是,聚类可以自动地发现这些分组是聚类分析的突出优点。应用场景客户分类文...

2018-11-11 17:23:18 9463 1

转载 MySQL ALTER命令

原文链接删除或者修改表字段如下命令使用了 ALTER 命令及 DROP子句来删除以上创建表的test_id字段:mysql> ALTER TABLE testalter_tbl DROP test_id;如果数据表中只剩余一个字段则无法使用DROP来删除字段。MySQL 中使用 ADD子句来向数据表中添加列,如下实例在表 test_tbl中添加 test_id 字段,并定义数...

2018-11-09 17:56:51 212

转载 MySQL 事务

原文链接MySQL 事务事务主要用于处理操作量大,复杂度高的数据。比如说,在人员管理系统中,你删除一个人员,你即需要删除人员的基本资料,也要删除和该人员相关的信息,如信箱,文章等等,这样,这些数据库操作语句就构成一个事务!在 MySQL 中只有使用了 Innodb 数据库引擎的数据库或表才支持事务。事务处理可以用来维护数据库的完整性,保证成批的 SQL 语句要么全部执行,要么全部不执行...

2018-11-09 16:38:11 204

原创 挖掘频繁模式、关联和相关性:基本概念和方法

基本概念频繁模式挖掘搜索给定数据及中国反复出现的联系。购物篮分析:一个例子频繁项集、闭项集和关联规则规则的支持度和置信度是规则兴趣度的两种度量。一个例子:支持度:支持度为2%,意味着分析的所有事务的2%显示计算机和杀毒软件被同时购买置信度:置信度60%,意味着购买计算机的顾客60%也购买了杀毒软件。在典型情况下,如果满足最小支持度阈值和最小置信度阈值,关联规则被认为是有...

2018-11-09 16:12:21 546

原创 MySQL UNION、排序、分组、连接、NULL值处理和正则表达式

UNIONSQL UNION下面的SQL语句从product和orderdetail表中选取所有不同的pCode(只有不同值)SELECT pCode FROM productUNIONSELECT pCode FROM orderdetailORDER BY pCode;SQL UNION ALL下面的SQL语句从product和orderdetail表中选取所有的pCode(...

2018-11-08 16:50:38 894

转载 数据仓库与联机分析处理

本文为《数据挖掘:概念与技术》中“数据仓库与联机分析处理”的阅读笔记。数据仓库与联机分析处理ETL:用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。数据仓库提供联机分析处理(OLAP)工具,用于各种粒度的多维数据的交互分析,有利于有效的数据泛化和数据挖掘。数据立方体,是一种用于数据和OLAP以及OLAP操作(如上卷、下钻、切片...

2018-11-08 14:46:30 2917

原创 数据预处理

数据预处理为什么要进行数据预处理?数据质量数据质量包括准确性、完整性、一致性、时效性、可信性和可解释性数据质量的三个要素:准确性、完整性、一致性。不正确、不完整和不一致的数据是现实世界的大型数据库和数据仓库的共同特点数据预处理的主要任务数据清理数据集成数据规约数据变换数据清理现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的、光滑噪声并...

2018-11-07 15:26:22 1545

原创 认识数据

数据对象与属性类型数据集由数据对象组成,一个数据对象代表一个实体。属性是一个数据字段,表示数据对象的一个特征标称属性的值是一些符号或者事务的名称二元属性是一种标称属性,只有两个类别或者状态:0或者1序数属性可能的值之间具有有意义的序或者秩评定,但是相继值之间的差未知(如大中小)数值属性区间标度属性:属性涌向等的单位尺度度量。比率标度属性:属性是具有固定零点的数值属性。离散...

2018-11-06 23:01:33 1099

原创 python爬虫使用框架

scrapypip install scrapybeautifulsouppip install scrapyseleniumpip install selenium滑动验证码Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla ...

2018-11-02 22:09:20 236

原创 数据挖掘引论

数据挖掘引论为什么进行数据挖掘简单的说就是信息化时代,数据量太大,仅仅靠人自己来发现信息中的可用信息代价太高,所以数据挖掘崛起。随着数据挖掘崛起,出现了一个名词,数据仓库,它是一种多个异构数据源在但个站点以统一的模式组织的存储,数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。下图是数据仓库技术的演变。什么是数据挖掘许多人把数据挖掘视为另一个流行术语数据中的知识发现(KD...

2018-11-02 15:22:43 405 1

WPS二次开发接口.rar

WPS二次开发接口(三个版本),提供了WPS的API,可使用python、java、C语言进行二次开发

2019-10-30

《深度学习入门:基于Python的理论与实现》超清中文+源代码

本书最大的特点是“剖解”了深度学习的底层技术。正如美国物理学家 理查德·费曼(Richard Phillips Feynman)所说: “What I cannot create, I do not understand.”只有创造一个东西,才算真正弄懂了一个问题。本书就是教你如何创建深度学习模型的一本书。并且,本书不使用任何现有的深度学习框架,尽可能仅使用最基本的数学知识和Python 库,从零讲解深度学习核心问题的数学原理,从零创建一个经典的深度学习网络。

2018-12-11

HANDSON_DATA_SCIENCE_AND_PYTHON_MACHINE_LEARNING

My name is Frank Kane. I spent nine years at amazon.com and imdb.com, wrangling millions of customer ratings and customer transactions to produce things such as personalized recommendations for movies and products and "people who bought this also bought." I tell you, I wish we had Apache Spark back then, when I spent years trying to solve these problems there. I hold 17 issued patents in the fields of distributed computing, data mining, and machine learning. In 2012, I left to start my own successful company, Sundog Software which focuses on virtual reality environment technology, and teaching others about big data analysis.

2018-09-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除