自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 二、对新闻网页进行模型训练生成训练集

(1)网页包含大量的结构化标签,比如<head>,<title>等,它比纯文本更具表现力,有更多的信息能够被利用,比如通过<head>标签我们很容易得到标签中对应的文本就是网页的标题,再比如不同的字体也有相应标签, 通过字体大小我们可以得到对应文本的重要性,一般标题会用大号的字 体,而正文就是普通字体。首先要获得训练数据,训练数据就是一些网页样本,但是原始的网页并不能直接来作为训练集合, 因为原始网页具有复杂无规律的信息,我们需要根据原始网页提取有用的特征,如内容特征,网站特征,url 特征等等。

2023-05-11 16:00:00 386

原创 三、将新闻分类进行测试应用及展示

朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。(2)WebContent下show.jsp文件为该项目的展示页面,js目录存放的是show.jsp页面中需要的js文件,WEB-INF中的lib下存放的是项目需要的jar包和为servlet定制url的web.xml文件。本项目利用WebMagic爬取测试网页保存到本地。

2023-05-11 11:43:23 193 1

原创 一、采集新闻网页分类并进行数据训练(局域网)

而Spider则将这几个组件组织起来,让它们可以互相交互,流程化的执行,可以认为Spider是一个大的容器,它也是WebMagic逻辑的核心。也就是对当前爬虫,进行设置,包括编码、抓取间隔、超时时间、重试次数等,也包括一些模拟的参数,例如User Agent、cookie,以及代理的设置。我们可以爬取局域网中新闻网站的各类网页,局域网中的网站只是用来示范如何爬取本实验用到的数据,在下一个实验任务中会提供完整的10个类别的新闻网页,本次实验任务以采集该网站中体育类的网页为例进行讲解。

2023-05-11 11:38:32 330

原创 MongoDB shell操作

②save()的语法为:db.collection.save( x ),x就是要更新的对象,只能是单条记录。也可以用Save执行插入操作,如果系统中没有相同的"_id"就执行插入操作,有的话就执行覆盖掉原来的值,执行更新操作。multi:MongoDB默认是false,只更新找到的第一条记录,如果这个参数为true,就把按条件查出来多条记录全部更新。10.向集合mycollection中插入数据。upsert:如果不存在update的记录,是否插入objNew,true为插入,默认是false,不插入。

2023-05-09 09:46:17 381

原创 MongoDB 简介及安装、

它是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的,MongoDB最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。(4)如果负载增加(需要更多的存储空间和更强的处理能力),它可以分布在计算机网络中的其它节点上,这就是所谓的分片。(5)MongoDB支持丰富的查询表达式,查询指令使用json形式的标记,可轻易查询文档中内嵌的对象和数组。

2023-05-09 09:42:33 56

原创 Hive应用实例:WordCount

通过一个实例——词频统计,来深入学习一下Hive的具体使用。首先,需要创建一个需要分析的输入数据文件,然后,编写HiveQL语句实现WordCount算法,在Linux下实现步骤如下:首先,启动Hadoop进程。创建input目录,其中input为输入目录。执行完成后,用select语句查看运行结果如下图所示。将测试文件上传至HDFS文件系统的input目录下。在HDFS文件系统上创建input目录。

2023-05-04 12:12:49 283

原创 Hive基本操作

在hive数据库中,创建表usr,含三个属性id,name,age,存储路径为“/usr/local/hive/warehouse/hive/usr”。③ 在hive数据库中,创建外部表usr_a,含三个属性id,name,age,可以读取路径“/usr/local/data”下以“,”分隔的数据。④ 在hive数据库中,创建分区表usr_b,含三个属性id,name,age,还存在分区字段sex。① 在hive数据库中,创建表usr,含三个属性id,name,age。

2023-05-04 12:12:38 549

原创 Hive的安装

现在,需要在MySQL数据库中新建一个名称为hive的数据库,用来保存Hive的元数据。MySQL中的这个hive数据库,是与Hive的配置文件hive-site.xml中的“mysql://localhost:3306/hive”对应起来的,用来保存Hive元数据。解决方法是,查看Hadoop安装目录下“share/hadoop/common/lib”内guava.jar版本,再查看Hive安装目录下的lib目录内guava.jar的版本,如果两者不一致,删除版本低的,并拷贝高版本的。

2023-05-04 11:40:29 64

原创 MapReduce词频统计(二)

比如,如果要把“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-3.1.3.jar和haoop-nfs-3.1.3.jar添加到当前的Java工程中,可以在界面中点击相应的目录按钮,进入到common目录,然后,界面会显示出common目录下的所有内容(如下图所示)。首先,请在Eclipse工作界面左侧的“Package Explorer”面板中,在工程名称“WordCount”上点击鼠标右键,在弹出的菜单中选择“Export”,如下图所示。

2023-04-27 11:37:56 160

原创 MapReduce词频统计(一)

在Map阶段,文件wordfile1.txt和文件wordfile2.txt中的文本数据被读入,以<key,value>的形式提交给Map函数进行处理,其中,key是当前读取到的行的地址偏移量,value是当前读取到的行的内容。<key,value>提交给Map函数以后,就可以运行我们自定义的Map处理逻辑,对value进行处理,然后以特定的键值对的形式进行输出,这个输出将作为中间结果,继续提供给Reduce阶段作为输入数据。但是,为了简化任务,这里的两个文件只包含几行简单的内容。

2023-04-25 09:36:47 1493

原创 Python Hbase API 实例

DDL比DML要多,主要的命令有CREATE、ALTER、DROP等,DDL主要是用在定义或改变表(TABLE)的结构,数据类型,表之间的链接和约束等初始化工作上,他们大多在建立表时使用。(要求:在/data/目录下,创建文件check,并将此步骤的运行结果保存至check中。它们是SELECT、UPDATE、INSERT、DELETE,就象它的名字一样,这4条命令是用来对数据库里的数据进行操作的语言。2.到/apps/hbase/bin目录下,启动Hbase。7.先创建以hbase_DDL命名的文件。

2023-04-20 19:40:35 296 1

原创 HBase Shell基本操作

12.修改table_name的表结构,将TTL(生存周期)改为30天,这里要注意,修改表结构前必须先disable使表失效,修改完成后再使用enable命令,使表重新生效(可用is_enabled 'table_name'或is_disabled 'table_name'判断表的状态)表名为table_name,列族名为f1(语法:create <table>, {NAME => <family>, VERSIONS => <VERSIONS>})

2023-04-20 19:38:44 462

原创 Hadoop 伪分布模式安装(Hadoop3.0)

在这个模式中,所有守护进程(NameNode,DataNode,ResourceManager,NodeManager,SecondaryNameNode)都在同一台机器上运行。此外,Hadoop还包括了Hive,Hbase,ZooKeeper,Pig,Avro,Sqoop,Flume,Mahout等项目。当你看到下面流程的时候,表示程序已正常运行,hadoop环境也是没问题的。dfs.replication,配置每个数据库备份数,由于目前我们使用1台节点,所以,设置为1,如果设置为2的话,运行会报错。

2023-04-20 11:53:08 152 1

原创 HBase安装

HBase Master负责管理所有的HRegion,HBase Master并不存储HBase服务器的任何数据,HBase逻辑上的表可能会划分为多个HRegion,然后存储在HRegion Server群中,HBase Master Server中存储的是从数据到HRegion Server的映射。6.使用vim编辑/apps/hbase/conf/regionservers文件,此文件存储了HBase集群节点的ip地址,目前只有一台节点,所以只需要填写localhost即可。

2023-04-20 11:45:41 169 1

原创 HDFS JAVA API(Hadoop3.0)

1.HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础篇,为了实现本地与HDFS的文件传输,主要借助Eclipse开发环境,通过java编程实现了远程HDFS的文件创建,上传,下载,删除等。在my.hdfs包下,新建类PutMerge,程序功能是将Linux本地文件夹/data/hadoop4/下的所有文件,上传到HDFS上并合并成一个文件/hdfstest/mergefile。

2023-04-18 11:04:13 698 1

原创 Hadoop Shell 基本操作

在分布式文件系统启动的时候,开始的时候可能会进入安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。在Hadoop的/apps/hadoop/share/hadoop/mapreduce路径下存在hadoop-mapreduce-examples-3.0.0.jar包,我们执行其中的worldcount类,数据来源为HDFS的/in目录,数据输出到HDFS的/out目录。Hadoop中的mv用法同Linux中的一样,都可以起到移动文件和重命名的作用。

2023-04-18 10:59:07 174

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除