LD的yep-CSDN博客

原创数据清洗python

# 筛选出'Score'列中超过上下界的数据点。# 计算'Score'和'Age'两列的相似性矩阵。# 计算'Score'列的上下界，用于筛选异常值。# # 删除'Score'列中超过上下界的数据点。# mode = df.mode() # 众数。# 计算'Score'列的均值，用于填充缺失值。# 查看'age'列中的不同取值及其出现次数。# # 用均值填充'Score'列中的缺失值。# # 查看'Score'列的统计信息。# # 计算'Score'列的上下界。## 找到'age'列中的缺失值。

2023-12-15 11:38:40 882 1

原创实现对数据进行有效清洗

# 筛选出'Score'列中超过上下界的数据点。# 计算'Score'和'Age'两列的相似性矩阵。# 计算'Score'列的上下界，用于筛选异常值。# # 删除'Score'列中超过上下界的数据点。# mode = df.mode() # 众数。# 计算'Score'列的均值，用于填充缺失值。# 查看'age'列中的不同取值及其出现次数。# # 用均值填充'Score'列中的缺失值。# # 查看'Score'列的统计信息。# # 计算'Score'列的上下界。## 找到'age'列中的缺失值。

2023-12-15 11:38:02 887

原创利用KMeans聚类算法进行聚类

print('本次分类总样本数目为:' + str(size) + ' 其中正确分类数目为:' + str(correct[0]) + ' 正确率为：' + str(correct[0] / size), file=doc)file1 = pd.read_excel('D:\数据采集\新浪\新浪娱乐.xlsx', engine='openpyxl')result.append('类别' + '(' + type + ')' + ':' + str(label_i))z = '娱乐' + str(i)

2023-12-15 11:30:53 831

原创利用KMeans聚类算法对新闻文章进行聚类

利用KMeans聚类算法对新闻文章进行聚类，并观察聚类个数K和初始类中心点对聚类效果的影响。2. 采用余弦相似度作用相似性度量函数，计算不同新闻文章之间的距离（或相似性）；4. 计算所有文章到K篇文章之间的距离，并将每篇文章归划到与之最近的类中心上；1. 对新闻文章进行分词，并计算所有词语的tf-idf值；6. 重复第4、5步，直至各个类内的文章趋于稳定。3. 选择K篇文章作为初始类中心；5. 更新类中心的特征向量；本次分类总样本数目为。

2023-12-15 11:29:35 1131 1

原创 爬虫采集互联网数据的全过程；

找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。

2023-12-15 11:25:38 297

原创爬虫采集互联网数据的全过程

爬虫初始种子：新浪（news.sina.com.cn）、搜狐（news.sohu.com）、凤凰（news.ifeng.com）、网易（news.163.com）、百度（news.baidu.com）找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。找到新闻标题的所在标签名称。

2023-12-15 11:24:39 1345

原创 MongoDB 聚合

/ 查询集合 "buyer" 中 "buyer_id" 在 20001 到 20056 之间的文档， // 然后根据 "buyer_id" 分组，统计每个不同的 "buyer_id" 对应的文档数量，存储在 "count" 字段中。// 查询集合 "buyer" 中的文档，并将文档中的 "_id" 字段排除，只保留 "buyer_id" 和 "goods_id" 字段，其他字段不包含在结果中。// map 函数，以 "location" 字段作为 key，1 作为 value 进行映射。

2023-12-15 11:17:51 870

原创区块链中的货币与现金系统

该网络本身需要最小的结构，其中的消息以尽力而为的方式广播，节点可以随意离开或重新加入网络，并接受最长的工作量证明链，以此确证他们不在网络期间发生的事。1）虚拟货币通常指基于网络的虚拟性，由网络运营商提供发行并应用在网络虚拟空间的类货币，如腾讯公司发行的Q币，各大网游公司发行的游戏币等，一般只在自身生态内流通，政府出于稳定金融体系的目的规定其不可与法币双向流通。这样可以提高交易的速度和效率，尤其对于跨境支付来说，传统金融系统通常需要较长的处理时间和高昂的手续费，而点对点的电子现金系统可以实现快速的国际支付。

2023-12-15 11:10:01 1373

原创 HBase JAVA API

HBase的Java API提供了一种与HBase数据库进行交互的方式，通过编写Java程序可以连接到HBase集群并对数据进行存储、检索和处理。该API适用于大规模数据存储、实时数据访问和高扩展性需求的场景。具有高可靠性、高扩展性和高性能的特点。它可以处理海量数据，并且支持低延迟的读写操作，提供了强大的过滤和排序功能[1]。在当前的大数据应用环境下，HBase的优势得到了广泛认可，越来越多的企业和组织选择将其作为核心数据存储和处理平台。

2023-12-15 10:59:57 283

原创 storm安装过程

打开Storm的conf目录，并编辑`storm.yaml`文件以指定你的Storm集群配置。然后，在`nimbus.host`选项中设置Nimbus服务器的IP地址或主机名，下载完成后，将Storm文件解压到一个目录中。可以将其解压到任何你想要的位置，只需确保有足够的权限在该目录中读写文件。启动Storm后，可以通过访问Web UI来验证Storm是否已经成功安装。如果一切顺利，你将看到Storm的Web UI界面。安装和配置Storm后，启动Storm服务。其中，`x.x.x`是Storm版本号。

2023-12-04 11:34:48 444

m0_72935705的博客