qq_35193897-CSDN博客

原创二、对新闻网页进行模型训练生成训练集

（1）网页包含大量的结构化标签，比如<head>，<title>等，它比纯文本更具表现力，有更多的信息能够被利用，比如通过<head>标签我们很容易得到标签中对应的文本就是网页的标题，再比如不同的字体也有相应标签，通过字体大小我们可以得到对应文本的重要性，一般标题会用大号的字体，而正文就是普通字体。首先要获得训练数据，训练数据就是一些网页样本，但是原始的网页并不能直接来作为训练集合，因为原始网页具有复杂无规律的信息，我们需要根据原始网页提取有用的特征，如内容特征，网站特征，url 特征等等。

2023-05-11 16:00:00 424

原创三、将新闻分类进行测试应用及展示

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。(2)WebContent下show.jsp文件为该项目的展示页面，js目录存放的是show.jsp页面中需要的js文件，WEB-INF中的lib下存放的是项目需要的jar包和为servlet定制url的web.xml文件。本项目利用WebMagic爬取测试网页保存到本地。

2023-05-11 11:43:23 211 1

原创一、采集新闻网页分类并进行数据训练（局域网）

而Spider则将这几个组件组织起来，让它们可以互相交互，流程化的执行，可以认为Spider是一个大的容器，它也是WebMagic逻辑的核心。也就是对当前爬虫，进行设置，包括编码、抓取间隔、超时时间、重试次数等，也包括一些模拟的参数，例如User Agent、cookie，以及代理的设置。我们可以爬取局域网中新闻网站的各类网页，局域网中的网站只是用来示范如何爬取本实验用到的数据，在下一个实验任务中会提供完整的10个类别的新闻网页，本次实验任务以采集该网站中体育类的网页为例进行讲解。

2023-05-11 11:38:32 341

原创 MongoDB shell操作

②save()的语法为：db.collection.save( x )，x就是要更新的对象，只能是单条记录。也可以用Save执行插入操作，如果系统中没有相同的"_id"就执行插入操作，有的话就执行覆盖掉原来的值，执行更新操作。multi：MongoDB默认是false，只更新找到的第一条记录，如果这个参数为true，就把按条件查出来多条记录全部更新。10.向集合mycollection中插入数据。upsert：如果不存在update的记录，是否插入objNew，true为插入，默认是false，不插入。

2023-05-09 09:46:17 429

原创 MongoDB 简介及安装、

它是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的，MongoDB最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。(4)如果负载增加(需要更多的存储空间和更强的处理能力)，它可以分布在计算机网络中的其它节点上，这就是所谓的分片。(5)MongoDB支持丰富的查询表达式，查询指令使用json形式的标记，可轻易查询文档中内嵌的对象和数组。

2023-05-09 09:42:33 62

原创 Hive应用实例：WordCount

通过一个实例——词频统计，来深入学习一下Hive的具体使用。首先，需要创建一个需要分析的输入数据文件，然后，编写HiveQL语句实现WordCount算法，在Linux下实现步骤如下：首先，启动Hadoop进程。创建input目录，其中input为输入目录。执行完成后，用select语句查看运行结果如下图所示。将测试文件上传至HDFS文件系统的input目录下。在HDFS文件系统上创建input目录。

2023-05-04 12:12:49 293

原创 Hive基本操作

在hive数据库中，创建表usr，含三个属性id，name，age，存储路径为“/usr/local/hive/warehouse/hive/usr”。③　在hive数据库中，创建外部表usr_a，含三个属性id，name，age，可以读取路径“/usr/local/data”下以“，”分隔的数据。④　在hive数据库中，创建分区表usr_b，含三个属性id，name，age，还存在分区字段sex。①　在hive数据库中，创建表usr，含三个属性id，name，age。

2023-05-04 12:12:38 591

原创 Hive的安装

现在，需要在MySQL数据库中新建一个名称为hive的数据库，用来保存Hive的元数据。MySQL中的这个hive数据库，是与Hive的配置文件hive-site.xml中的“mysql://localhost:3306/hive”对应起来的，用来保存Hive元数据。解决方法是，查看Hadoop安装目录下“share/hadoop/common/lib”内guava.jar版本，再查看Hive安装目录下的lib目录内guava.jar的版本，如果两者不一致，删除版本低的，并拷贝高版本的。

2023-05-04 11:40:29 102

原创 MapReduce词频统计（二）

比如，如果要把“/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-3.1.3.jar和haoop-nfs-3.1.3.jar添加到当前的Java工程中，可以在界面中点击相应的目录按钮，进入到common目录，然后，界面会显示出common目录下的所有内容（如下图所示）。首先，请在Eclipse工作界面左侧的“Package Explorer”面板中，在工程名称“WordCount”上点击鼠标右键，在弹出的菜单中选择“Export”，如下图所示。

2023-04-27 11:37:56 242

原创 MapReduce词频统计（一）

在Map阶段，文件wordfile1.txt和文件wordfile2.txt中的文本数据被读入，以<key,value>的形式提交给Map函数进行处理，其中，key是当前读取到的行的地址偏移量，value是当前读取到的行的内容。<key,value>提交给Map函数以后，就可以运行我们自定义的Map处理逻辑，对value进行处理，然后以特定的键值对的形式进行输出，这个输出将作为中间结果，继续提供给Reduce阶段作为输入数据。但是，为了简化任务，这里的两个文件只包含几行简单的内容。

2023-04-25 09:36:47 1862

原创 Python Hbase API 实例

DDL比DML要多，主要的命令有CREATE、ALTER、DROP等，DDL主要是用在定义或改变表（TABLE）的结构，数据类型，表之间的链接和约束等初始化工作上，他们大多在建立表时使用。（要求：在/data/目录下，创建文件check，并将此步骤的运行结果保存至check中。它们是SELECT、UPDATE、INSERT、DELETE，就象它的名字一样，这4条命令是用来对数据库里的数据进行操作的语言。2.到/apps/hbase/bin目录下，启动Hbase。7.先创建以hbase_DDL命名的文件。

2023-04-20 19:40:35 329 1

原创 HBase Shell基本操作

12.修改table_name的表结构，将TTL（生存周期）改为30天，这里要注意，修改表结构前必须先disable使表失效，修改完成后再使用enable命令，使表重新生效（可用is_enabled 'table_name'或is_disabled 'table_name'判断表的状态）表名为table_name，列族名为f1（语法：create <table>, {NAME => <family>, VERSIONS => <VERSIONS>}）

2023-04-20 19:38:44 559

原创 Hadoop 伪分布模式安装（Hadoop3.0）

在这个模式中，所有守护进程(NameNode，DataNode，ResourceManager，NodeManager，SecondaryNameNode)都在同一台机器上运行。此外，Hadoop还包括了Hive，Hbase，ZooKeeper，Pig，Avro，Sqoop，Flume，Mahout等项目。当你看到下面流程的时候，表示程序已正常运行，hadoop环境也是没问题的。dfs.replication，配置每个数据库备份数，由于目前我们使用1台节点，所以，设置为1，如果设置为2的话，运行会报错。

2023-04-20 11:53:08 159 1

原创 HBase安装

HBase Master负责管理所有的HRegion，HBase Master并不存储HBase服务器的任何数据，HBase逻辑上的表可能会划分为多个HRegion，然后存储在HRegion Server群中，HBase Master Server中存储的是从数据到HRegion Server的映射。6.使用vim编辑/apps/hbase/conf/regionservers文件，此文件存储了HBase集群节点的ip地址，目前只有一台节点，所以只需要填写localhost即可。

2023-04-20 11:45:41 182 1

原创 HDFS JAVA API（Hadoop3.0）

1.HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础篇，为了实现本地与HDFS的文件传输，主要借助Eclipse开发环境，通过java编程实现了远程HDFS的文件创建，上传，下载，删除等。在my.hdfs包下，新建类PutMerge，程序功能是将Linux本地文件夹/data/hadoop4/下的所有文件，上传到HDFS上并合并成一个文件/hdfstest/mergefile。

2023-04-18 11:04:13 727 1

原创 Hadoop Shell 基本操作

在分布式文件系统启动的时候，开始的时候可能会进入安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。在Hadoop的/apps/hadoop/share/hadoop/mapreduce路径下存在hadoop-mapreduce-examples-3.0.0.jar包，我们执行其中的worldcount类，数据来源为HDFS的/in目录，数据输出到HDFS的/out目录。Hadoop中的mv用法同Linux中的一样，都可以起到移动文件和重命名的作用。

2023-04-18 10:59:07 175

qq_35193897的博客