- 博客(16)
- 资源 (4)
- 收藏
- 关注
原创 机器学习笔记笔记之三——文本类型处理-词袋法、TF-IDF理解
在面对文本型特征时,大致可以分为两种。 一是枚举类型,比如:男女,小学生初中生高中生大学生……这种类型下类别一般不会超过百种,那么就可以使用 哑编码(one-hot)来处理。 另一种就是真正意义上的文本,一条评论或是一篇文章。对于这样的数据,我们介绍两种方法: (1)、词袋法。 什么是词袋法?将文本当作一个无序的集合,可以采用文本中的词条T进行体现,那么文...
2018-11-27 11:18:21 4941
原创 机器学习学习笔记之二——大数定律、中心极限定理以及极大似然估计理解与用法
极大似然估计法常常出现在机器学习算法的推导过程中,其使用场景或者说功能正是: 以已有样本、已有公式去估计参数,最大可能的那个参数。 这样来理解,极大似然估计法其实和机器学习算法的目标都是一样的。那么极大似然估计法如何来用呢? (1)、写出已有公式: L(θ)。 (2)、对L(θ)取对数: ln L(θ)。 这一步的目的是将L(θ)中的连乘操作转化为连加。 (...
2018-11-26 11:38:50 1705 1
原创 机器学习学习笔记之一——用python实现简单一元函数、二元函数的梯度下降
今天开始正正经经,好好的写机器学习的笔记。 再一次从头翻过来学机器学习,在有一些python和大学数学的基础下,首先要搞的果然还是梯度下降,本篇记录的是用jupyter完成的一次作业:python实现一维数组和二维数组的梯度下降,目的只在于熟悉梯度下降。第一部分:一元函数的数据生成与图像呈现import numpy as npimport matplotlib.pyplot ...
2018-11-24 16:07:22 5806 2
原创 Hadoop笔记之十六——cm、cdh安装使用
不论学什么,总会遇到障碍,自己走和别人同样的路,也总会有不同的困难,仅以此记录我的cm、cdh摸索道路。1、在VMware vSphere上面开辟出四台机器,五台的话能搭个HDFS的HA,每一台16G内存、八核、40G辅存 ip排列如下: 192.168.126.80 bigdata.hero-01 192.168.126.81 bigdat...
2018-11-03 17:33:07 558
原创 Hadoop笔记之十五——spark分析日志实例流程简述
需求: 分析apache 服务器日志步骤: step 0:在命令行下创建项目(windows、linux都可以) step 1:将项目导入idea step 2:修改pom.xml,加上hadoop和spark的依赖 step 3:创建apchelog对象类 step 4:编写日志分析逻辑 step 5:去掉重复放servlet-api.j...
2018-11-03 17:32:56 568
原创 Hadoop笔记之十四——hbase安装
本猿对hbase没有太多深入的实际操作,只有安装配置这一方面以及框架理解方面有一些可以拿出来的东西。1、上传解压2、配置hbase-env.sh export JAVA_HOME=/opt/modules/jdk1.7.0_67export HBASE_MANAGES_ZK=false 3、配置启动zookeeper$ bin/zkServer.sh star...
2018-11-03 17:32:44 165
原创 Hadoop笔记之十三——hue的安装以及实例
一、Hue安装1、检查联网[beifeng@hadoop-senior ~]$ ping www.baidu.comPING www.a.shifen.com (115.239.210.27) 56(84) bytes of data.64 bytes from 115.239.210.27: icmp_seq=1 ttl=128 time=6.49 ms64 bytes fro...
2018-11-02 14:23:22 761
原创 Hadoop笔记之十二——oozie安装及实例
一、oozie安装1、安装mysql数据库(root用户)# service mysql stop# rpm -qa|grep -i mysql# rpm -e MySQL-server-5.6.24-1.el6.x86_64# rpm -e MySQL-client-5.6.24-1.el6.x86_64 # mv /var/lib/mysql/ /var/lib/my...
2018-11-02 14:20:23 347
原创 Hadoop笔记之十一——Flume安装及简单实例
===================安装====================================1、解压安装2、配置flume-env.sh(JAVA_HOME)3、完事儿===================简单使用================================Flume常用参数--conf,-c <conf> us...
2018-11-02 14:12:41 283
原创 Hadoop笔记之十——利用hive统计uv、pv的简单思路
这篇笔记写的时间久了,具体的东西找不到,但是一下内容提供的流程可以供各位小白参考 0、统计每个时段网站的PV和UVhive (db_track)> select date,hour,count(url) pv,count(distinct guid) uv from track_log group by date,hour ;date hour pv uv20...
2018-11-02 14:10:27 2669
原创 Hadoop笔记之九——sqoop安装以及各种秀
===================================安装sqoop==================================== 1、下载解压 2、修改sqoop-env.sh #Set path to where bin/hadoop is available export HADOOP_COMMON_HOME=/opt/modules...
2018-11-02 14:06:26 186
原创 Hadoop笔记之八——Hive安装及关联mysql
1、下载hive压缩包https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.3/apache-hive-2.3.3-bin.tar.gz 2、解压hivetar -zxvf apache-hive-2.3.3-bin.tar.gz 3、安装mysql ...
2018-11-02 14:01:07 679 2
原创 Hadoop笔记之七——hadoop HA高可用搭建
0、规划好机器3台 虚拟机Linuxhadoop.lele.org 4G 内存 40G (机子配置较差 1G) NameNode ResourceManager DataNode NodeManager zkhadoop.lele.org02 2G 内存 40G (1G) DataNode ...
2018-11-02 13:51:15 571
原创 Hadoop笔记之六——Hadoop2.x 完全分布式搭建
1、准备服务器,并规划服务器角色 3台 虚拟机Linux s-hadoop01.lele.com 4G 内存 40G (机子配置较差 1G) NameNode ResourceManager DataNode NodeManager s-hadoop02.lele.com 2G 内存 40G (1G) DataNode Sec...
2018-11-02 13:23:30 248
原创 Hadoop笔记之五——java访问hdfs的权限设置
java代码取访问hdfs的时候,默认不是以hdfs系统所属用户的身份访问的,要想以主用户身份访问,有两种方式。 1、 配置连接hadoop的时候,加入如下代码。 //客户端用户与文件所属者用户 名称是否一样 System.setProperty("HADOOP_USER_NAME", "hadoop")...
2018-11-02 13:17:17 1609
原创 Hadoop笔记之四——hdfs文件读写流程 实例
1、引入jar,引入核心和hdfs有关所有包2、实例代码: import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.u...
2018-11-02 13:13:33 335
xiaoshuo_03_6-6.zip
2019-06-11
sparkstreaming2.3_kafka0.8_jar包集合
2018-04-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人