- 博客(15)
- 收藏
- 关注
原创 【RNN】
RNN(Recurrent Neural Network),即"循环神经网络",是在基础神经网络模型中增加了循环机制。具体的表现形式为网络会对前面的信息进行记忆并应用于当前的计算中,即当前时刻利用了上一时刻的信息,这便是“循环”的含义。
2024-06-19 16:22:42 1415
原创 【神经网络】
但随着神经网络层数加深,神经网络很容易发生过拟合现象(在训练集上表现很好,在未知的测试集上表现很差,即“泛化能力差”)。 在神经网络中可以引入非线性激活函数,这样就可以使得神经网络可以对数据进行非线性变换,解决线性模型的表达能力不足的问题。 与很多机器学习算法一样,可以在待优化的目标函数上添加正则化项(例如L1、L2正则),可以在一定程度减少过拟合的程度。 计算输出值的过程称为“前向传播”:将上一层的输出作为下一层的输入,并计算下一层的输出,一直到运算到输出层为止。
2024-06-19 16:20:46 1262
原创 【热词分析】
`根据用户上网的搜索记录对每天的热点搜索词进行统计,以了解用户所关心的热点话题。要求完成:统计每天搜索数量前3名的搜索词(同一天中同一用户多次搜索同一个搜索词视为1次)。2019-10-01,tom,小吃街2019-10-01,jack,谷歌浏览器2019-10-01,jack,小吃街2019-10-01,look,小吃街2019-10-01,steven,烤肉2019-10-01,lojas,烤肉2019-10-01,look,小吃街2019-10-02,marry,安全卫士2019-1
2024-06-19 11:00:05 345
原创 Spark运行模式
唯一不同的是,Spark Shell本身为集群的client提交方式运行,不支持cluster提交方式,即使用Spark Shell时,Driver运行于本地客户端,而不能运行于集群中。 Driver为主控进程,负责执行应用程序的main()方法,创建SparkContext对象(负责与Spark集群进行交互),提交Spark作业,并将作业转化为Task(一个作业由多个Task任务组成),然后在各个Executor进程间对Task进行调度和监控。通常用SparkContext代表Driver。
2024-06-18 09:42:02 730
原创 Spark RDD概述
Spark提供了一种对数据的核心抽象,称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。这个数据集的全部或部分可以缓存在内存中,并且可以在多次计算时重用。RDD其实就是一个分布在多个节点上的数据集合。 RDD的弹性主要是指:当内存不够时,数据可以持久化到磁盘,并且RDD具有高效的容错能力。 分布式数据集是指:一个数据集存储在不同的节点上,每个节点存储数据集的一部分。
2024-06-18 09:38:45 391
原创 Spark SQL整合Hive
Hive可以将SQL语句转化为MapReduce(或Apache Spark、Apache Tez)任务执行,大大降低了Hadoop的使用门槛,减少了开发MapReduce程序的时间成本。与Hive不同的是,Hive的执行引擎为MapReduce,而Spark SQL的执行引擎为Spark RDD。 在IDEA中编写Spark SQL操作Hive的应用程序,然后将编写好的应用程序打包为JAR,提交到Spark集群中运行,即可对Hive进行数据的读写与分析。打包程序,然后提交到Spark集群。
2024-06-18 09:37:18 597
原创 Spark SQL基础
Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。
2024-06-18 09:36:45 650
原创 Hive数据库操作
原因:手动在hdfs创建的分区目录信息,并没有保存到元数据库中,所以查询的时候从mysql元数据库查询不到country=en的分区信息,所以查不到数据。方案一(手动修复):想要读取到country=en分区的数据,可以添加country=en分区的元数据信息到mysql。思考:能否手动在hdfs添加一个分区目录country=en,并上传文件数据,那么在分区表中能否查到新的分区数据呢? 内部表又称受控表,当删除内部表的时候,存储在文件系统上的数据(例。不存在的,需要在添加数据的时候手动指定。
2024-06-18 09:34:42 1208
原创 hive搭建一
(8)拷贝mysql驱动jar 到/export/servers/apache-hive-3.1.3-bin/lib。(4)修改$HADOOP_HOME/etc/hadoop/core-site.xml 开启hadoop代理功能。(5) 拷贝hive-env.sh.template模版配置文件为hive-env.sh。(9) 删除冲突的log4j(log4j-slf4j-impl-2.4.1.jar)(7) 在MySQL中创建hive用的元数据库hive_meta。(10) hive初始化mysql。
2024-06-12 14:40:30 464
原创 【电商项目分析1】
根据电商日志文件,分析:统计页面浏览量(每行记录就是一次浏览)统计各个省份的浏览量 (需要解析IP)日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程)为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。本项目中需要解析出:ip、url、pageId(topicId对应的页面Id)、country、province、city章目录)
2024-06-12 11:35:46 419
原创 【无标题】
实习日记2024.6.4今天实习的项目是手机流量分析即统计每个手机号上行流量和、下行流量和、总流量和(上 行流量和+下行流量和),并且:将统计结果按照手机号的前缀 进行区分,并输出到不同的输出文件中去。
2024-06-05 14:11:33 361 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人