自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 数据清洗python

# 筛选出'Score'列中超过上下界的数据点。# 计算'Score'和'Age'两列的相似性矩阵。# 计算'Score'列的上下界,用于筛选异常值。# # 删除'Score'列中超过上下界的数据点。# mode = df.mode() # 众数。# 计算'Score'列的均值,用于填充缺失值。# 查看'age'列中的不同取值及其出现次数。# # 用均值填充'Score'列中的缺失值。# # 查看'Score'列的统计信息。# # 计算'Score'列的上下界。## 找到'age'列中的缺失值。

2023-12-15 11:38:40 872 1

原创 实现对数据进行有效清洗

# 筛选出'Score'列中超过上下界的数据点。# 计算'Score'和'Age'两列的相似性矩阵。# 计算'Score'列的上下界,用于筛选异常值。# # 删除'Score'列中超过上下界的数据点。# mode = df.mode() # 众数。# 计算'Score'列的均值,用于填充缺失值。# 查看'age'列中的不同取值及其出现次数。# # 用均值填充'Score'列中的缺失值。# # 查看'Score'列的统计信息。# # 计算'Score'列的上下界。## 找到'age'列中的缺失值。

2023-12-15 11:38:02 880

原创 利用KMeans聚类算法进行聚类

print('本次分类总样本数目为:' + str(size) + ' 其中正确分类数目为:' + str(correct[0]) + ' 正确率为:' + str(correct[0] / size), file=doc)file1 = pd.read_excel('D:\数据采集\新浪\新浪娱乐.xlsx', engine='openpyxl')result.append('类别' + '(' + type + ')' + ':' + str(label_i))z = '娱乐' + str(i)

2023-12-15 11:30:53 827

原创 利用KMeans聚类算法对新闻文章进行聚类

利用KMeans聚类算法对新闻文章进行聚类,并观察聚类个数K和初始类中心点对聚类效果的影响。2. 采用余弦相似度作用相似性度量函数,计算不同新闻文章之间的距离(或相似性);4. 计算所有文章到K篇文章之间的距离,并将每篇文章归划到与之最近的类中心上;1. 对新闻文章进行分词,并计算所有词语的tf-idf值;6. 重复第4、5步,直至各个类内的文章趋于稳定。3. 选择K篇文章作为初始类中心;5. 更新类中心的特征向量;本次分类总样本数目为。

2023-12-15 11:29:35 1088 1

原创 爬虫采集互联网数据的全过程;

找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。

2023-12-15 11:25:38 296

原创 爬虫采集互联网数据的全过程

爬虫初始种子:新浪(news.sina.com.cn)、搜狐(news.sohu.com)、凤凰(news.ifeng.com)、网易(news.163.com)、百度(news.baidu.com)找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。

2023-12-15 11:24:39 1341

原创 MongoDB 聚合

/ 查询集合 "buyer" 中 "buyer_id" 在 20001 到 20056 之间的文档, // 然后根据 "buyer_id" 分组,统计每个不同的 "buyer_id" 对应的文档数量,存储在 "count" 字段中。// 查询集合 "buyer" 中的文档,并将文档中的 "_id" 字段排除,只保留 "buyer_id" 和 "goods_id" 字段,其他字段不包含在结果中。// map 函数,以 "location" 字段作为 key,1 作为 value 进行映射。

2023-12-15 11:17:51 865

原创 区块链中的货币与现金系统

该网络本身需要最小的结构,其中的消息以尽力而为的方式广播,节点可以随意离开或重新加入网络,并接受最长的工作量证明链,以此确证他们不在网络期间发生的事。1)虚拟货币通常指基于网络的虚拟性,由网络运营商提供发行并应用在网络虚拟空间的类货币,如腾讯公司发行的Q币,各大网游公司发行的游戏币等,一般只在自身生态内流通,政府出于稳定金融体系的目的规定其不可与法币双向流通。这样可以提高交易的速度和效率,尤其对于跨境支付来说,传统金融系统通常需要较长的处理时间和高昂的手续费,而点对点的电子现金系统可以实现快速的国际支付。

2023-12-15 11:10:01 1306

原创 HBase JAVA API

HBase的Java API提供了一种与HBase数据库进行交互的方式,通过编写Java程序可以连接到HBase集群并对数据进行存储、检索和处理。该API适用于大规模数据存储、实时数据访问和高扩展性需求的场景。具有高可靠性、高扩展性和高性能的特点。它可以处理海量数据,并且支持低延迟的读写操作,提供了强大的过滤和排序功能[1]。在当前的大数据应用环境下,HBase的优势得到了广泛认可,越来越多的企业和组织选择将其作为核心数据存储和处理平台。

2023-12-15 10:59:57 279

原创 storm安装过程

打开Storm的conf目录,并编辑`storm.yaml`文件以指定你的Storm集群配置。然后,在`nimbus.host`选项中设置Nimbus服务器的IP地址或主机名,下载完成后,将Storm文件解压到一个目录中。可以将其解压到任何你想要的位置,只需确保有足够的权限在该目录中读写文件。启动Storm后,可以通过访问Web UI来验证Storm是否已经成功安装。如果一切顺利,你将看到Storm的Web UI界面。安装和配置Storm后,启动Storm服务。其中,`x.x.x`是Storm版本号。

2023-12-04 11:34:48 430

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除