Sunflower461-CSDN博客

原创神经网络相关

具体的表现形式为网络会对前面的信息进行记忆并应用于当前的计算中，即当前时刻利用了上一时刻的信息，这便是“循环”的含义。在神经网络中可以引入非线性激活函数，这样就可以使得神经网络可以对数据进行非线性变换，解决线性模型的表达能力不足的问题。与很多机器学习算法一样，可以在待优化的目标函数上添加正则化项（例如L1、L2正则），可以在一定程度减少过拟合的程度。遗忘门的作用是控制t-1时刻到t时刻时允许多少信息进入t时刻的门控设备。其中,xt是当前时刻的输入，at-1是上一时刻隐状态的值。Dropout（随机失活）

2024-06-21 09:04:41 394

原创 Python文本挖掘数据分析（结）

可以根据实际的业务选择区间的分隔线,由行业经验确定(例如认为增幅0.1在行业里算高,就可以作为分隔线)；明星产品和奶牛产品的商品个数普遍比较多；没有突出的明星产品,但是有快进入明星产品的问题产品。（2）分词（jieba/stemming--自定义词典--搜狗词库）对比市场份额前三的拜耳、安速、科凌虫控，挖掘拜耳市场增长策略。2、产品结构特征（BCG矩阵）及发展策略。4、舆情评论及情感分析（拜耳公司）（1）去非中英文（英文应变小写）3、流量结构及推广策略。拜耳奶牛产品/老爆款。拜耳问题产品/潜力款。

2024-06-20 14:37:53 383

原创 Python文本挖掘数据分析项目（续）

200-250这个价格段市场份额占10%左右,竞争度很低,是值得挖掘的高价市场。市场份额高的型号是粘鼠板,然而型号0005市场份额还行,竞争度较低,值得开发。10-20价格段市场容量大,竞争度低,值得进一步开发,20-30也不错。当物理形态为固体,净含量为1时,市场份额高竞争度低,值得开发。1. 灭鼠杀虫剂市场中,需要重点关注的产品类别是:灭鼠和蟑螂。最大的市场集中在0-50的价格段,这个价格段竞争也很激烈。产品的物理形态基本都是固体,也是被大众认可的形态。依据’售价’进行价格划分,得到若干的价格区间。

2024-06-20 10:52:19 267

原创 Python文本挖掘数据分析项目

某电商产品数据分析流程每个环节都有具体的要求,例如需求文档要求包含:目的,分析思路,预期效果业务部门出问题和需求,以及对算法&数据部门输出报告的理解和应用。

2024-06-19 23:33:00 1221

原创 HBase基础知识

HBase 是一个面向列式存储的分布式数据库，HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。

2024-06-18 13:30:00 354

原创 Hive的基本操作

其中：WITH DBPROPERTIES ，用来指定数据属性数据。

2024-06-18 11:15:30 371

原创 Spark SQL的基础知识

Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据，是指具有Schema信息的数据，例如JSON、Parquet、Avro、CSV格式的数据。与基础的Spark RDD API不同，Spark SQL提供了对结构化数据的查询和计算接口。将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL或熟悉的API在Spark程序中查询结构化数据。

2024-06-17 16:26:37 1062

原创 Scala编程语言基础

Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。Scala运行于Java平台，Scala程序会通过JVM被编译成class字节码文件，然后在操作系统上运行。其运行时候的性能通常与Java程序不分上下，并且Scala代码可以调用Java方法、继承Java类、实现Java接口等，几乎所有Scala代码都大量使用了Java类库。

2024-06-14 12:56:12 799

原创 Hive、MySQL安装配置

在hive的bin目录下： cd ../module/hive-3.1.2/bin/ 输入代码初始化。2.解压mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar。记得使环境变量的修改生效：source /etc/profile。7.拷贝MySQL的JDBC驱动至hive-3.1.2下的lib/输入以下内容，或直接上传资料包内的hive-site.xml。1、将安装包上传至/opt/software目录下。1.将安装包上传至/opt/software目录下。

2024-06-13 15:30:24 127

原创 Hadoop电商分析（三）

为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）（1）将文件上传至hdfs上。ETLDriver部分。

2024-06-10 21:00:00 299

原创 Hadoop电商分析（二）

运行过程中，出现了依赖包报错的问题，要加入正确的依赖文件，将Maven项目重新加载，自动下载相关jar包，再次进行调试。（1）将数据文件上传至HDFS文件目录下。统计各个省份的浏览量（需要解析IP）上传qqwry.dat文件。

2024-06-10 18:56:57 299 1

原创 Hadoop电商分析（一）

为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。3. 日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）1. 统计页面浏览量（每行记录就是一次浏览）2. 统计各个省份的浏览量（需要解析IP）数据集一共30w条数据。

2024-06-10 16:37:48 219 1

原创手机流量统计项目

统计每个手机号上行流量和、下行流量和、总流量和（上行流量和+下行流量和），并且：将统计结果按照手机号的前缀。phone==>Access(NullWritable对象,上行流量和,下行流量和)phone==>Access(手机号,该行手机号的上行流量,该行手机号的。类，"13"开头的手机号交给第一个ReduceTask任务处理，最终。输出到0号分区，"15"开头的手机号交给第二个ReduceTask任。phone==>Access(手机号,上行流量和,下行流量和)进行区分，并输出到不同的输出文件中去。

2024-06-06 14:23:56 258

原创 Hadoop中安装配置maven环境

链接：https://pan.baidu.com/s/1UmFMf3z4LVco1Wc15CAniw?环境变量在root权限下修改，一定要改权限，用su root命令；若安装成功，会出现maven存储路径及相关内容。按Esc键保存，:wq退出编辑页面。加入下面两行代码，退出编辑页面即可。按a可进入编辑模式，加入镜像文件。

2024-06-04 23:55:28 143 1

qq_64366080的博客