自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 基于LDA主题模型对新闻报道聚类与Apple公司股票预测

一、主题基于LDA主题模型对新闻报道聚类与Apple公司股票预测二、简述文本聚类的基本步骤:(1)文本预处理。对获得的文本数据进行清洗,过滤掉无用的文本。然后对文本进行分词。分词后需要去除像“的”、“啊”等无用的词。(2)构造文本特征。将预处理好的文本转化成能让学习模型处理的数据类型。首先可以生成词袋,即不考虑词语的原本在句子中的顺序,直接将每一个词按照计数的方式进行统计。然后进行词干提取。(3)构造模型训练。将获得的数据进行划分训练集和测试集,用合适的模型进行训练,最后计算准确率等来评估模型。

2020-06-29 10:56:52 1274 1

原创 基于并行计算(MapReduce)的PM2.5数据集处理

问题描述:对提供的PM2.5的数据进行分析1.对所有城市的PM2.5的平均值进行排序,保存到一个文件中;2.对每一个城市,计算2000年6月到2015年2月,每个月份的PM2.5平均值,并将每一个城市的结果保存到一个文件中。(对于每个月份数据缺失大于1/2的平均值用NaN表示,对于月份数据缺失小于1/2的计算已有天数的平均值)实现环境:Hadoop2.7.2Java1.8IntelliJ IDEAMaven方案设计:(1)将每行数据读入切割,去除无效数据并封装成bean对象,

2020-06-06 08:55:16 950 1

原创 基于线性判别分析(LDA)的客户流失预测

线性判别分析简述:线性判别分析(Linear Discriminant Analysis, 简称LDA)是一个经典的降维算法。LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用。它与PCA(主成分分析)有一定的相似性。常见的LDA其实有两种,在NLP(自然语言处理)领域中LDA是隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),是一种处理文档的主题模型。LDA的个人理解为:将数据在低维度上进行投影,投影后希望每类别数据的投影点尽可能的

2020-06-01 08:25:37 1554

原创 基于卷积神经网络的验证码识别(准确率87.5%+)

目录一、任务背景与目标概述二、卷积神经网络简介三、方案设计及实现过程四、实验结果及分析与讨论五、结论实现代码一、任务背景与目标概述随着现代网络技术的飞速发展和提高,改善了我们的生活质量,同时也给生活带来了很多便利,但随之而来的还有许多问题,例如日益严重的网络安全问题。在学习了人工神经网络的这门课之后,结合本科阶段所学习的网络安全相关知识,决定完成一个基于卷积神经网络的验证码识别程序。在进行渗透测试时,发现网站或者CMS后台后可以进行爆破。账户名和密码可以用常用字符组成字典进行暴力破解,但安全性稍高的网站

2020-05-16 11:45:09 11895 25

原创 CentOS7环境下搭建Hadoop集群教程

文章目录系统环境所需软件搭建步骤1.虚拟机环境搭建1.1虚拟机安装1.2克隆虚拟机1.3修改虚拟机静态IP1.4修改主机名1.5关闭防火墙及绑定IP2.JDK的安装与配置3.MYSQL的安装与配置3.1下载与安装3.2启动及配置4.SSH免密钥登录5.Hadoop的安装与配置5.1下载与解压安装5.2目录规划5.3环境配置5.4集群测试6.Zookeeper的安装与配置6.1下载安装与配置6.2从...

2019-12-30 10:57:01 1253 1

原创 基于K-Means的银行客户数据集分析与处理

关于银行数据的分析与处理,数据集来自www.kaggle.com数据分析选择K-means聚类算法来处理数据,得出相关结论。K-means算法简述:K-Means的算法如下:1、 随机在图中取K(这里K=2)个种子点。2、 然后对图中的所有点求到这K个种子点的距离,假如点Pi离种子点Si最近,那么Pi属于Si点群。(上图中,我们可以看到A,B属于上面的种子点,C,D,E属于下面中...

2019-11-26 20:23:11 11876 9

原创 Tokyo Cabinet 与 Tokyo Tyrant 介绍及安装

简介Tokyo Cabinet (简称TC) 是日本人平林幹雄 开发的一款 DBM 数据库,其数据文件只有一个,里面存放多个<key,value>的数据记录,所有操作都是依据 key做主键操作。key,value都可以是连续不定长,即可以是二进制,也可是是字符串。该数据库读写非常快,哈希模式下 写入 100 万条数据只需 0.643 秒,读取 100万 条数据只需 0.773秒,是 ...

2019-11-23 23:44:05 831

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除